論文の概要: The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
- arxiv url: http://arxiv.org/abs/2511.20614v1
- Date: Tue, 25 Nov 2025 18:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.620994
- Title: The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
- Title(参考訳): Consistency Critic:Reference-Guided Attentive Alignmentによる生成画像の不整合の修正
- Authors: Ziheng Ouyang, Yiren Song, Yaoli Liu, Shihao Zhu, Qibin Hou, Ming-Ming Cheng, Mike Zheng Shou,
- Abstract要約: ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 105.31858867473845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.
- Abstract(参考訳): これまでは、参照画像に基づいて様々なカスタマイズされた生成タスクを探索してきたが、それでも一貫したきめ細かい詳細を生成するには限界がある。
本稿では、参照誘導後編集アプローチを適用して、生成画像の不整合問題を解決することを目的とする。
まず、VLMに基づく選択と明示的な劣化によって得られた基準劣化ターゲット三重項のデータセットを構築し、既存の世代モデルで見られる一般的な不正確さや不整合を効果的にシミュレートする。
さらに,モデルの注意機構と本質的な表現の徹底的な検証に基づいて,注意アライメント損失と詳細エンコーダを考案し,不整合を正確に補正する。
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、複雑なシナリオで複数ラウンドでローカルに編集することで修正する。
大規模な実験は、ImageCriticが様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決できることを示し、既存のメソッドよりも大幅に改善されている。
関連論文リスト
- OmniRefiner: Reinforcement-Guided Local Diffusion Refinement [10.329465965964571]
VAEベースの潜伏圧縮は微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅する。
参照駆動補正の2段階を連続的に行う細部対応精細化フレームワークである ourMthd を紹介した。
実験により,我々のMthdは参照アライメントと細かなディテール保存を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-11-25T06:57:49Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。
我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文 参考訳(メタデータ) (2025-06-02T11:05:28Z) - From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration [2.997052569698842]
All-in-One Image Restoration (AiOIR) は、統一されたパラメータを持つ単一モデルを用いて、複数の劣化パターンによる画像復元を実現することを目的としている。
UDAIRフレームワークは、ソースドメインからターゲットドメインへの学習知識を活用することにより、AiOIRを効果的に実現するために提案されている。
10のオープンソースデータセットの実験結果は、UDAIRがAiOIRタスクのための新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-28T12:22:00Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences Neuron Visualisations and Visual Counterfactual Explanations [35.458709912618176]
ディープラーニングは、ImageNetのような複雑な画像分類タスク、予期せぬ障害モード、例えばスプリアス機能などに大きな進歩をもたらした。
安全クリティカルなタスクでは、その決定のブラックボックスの性質は問題であり、説明や少なくとも意思決定を行う方法が緊急に必要である。
本稿では,これらの問題に対して,ガイド画像生成のためのフレームワークを用いて分類器由来の目的を最適化した画像を生成する。
論文 参考訳(メタデータ) (2023-11-29T17:35:29Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。