論文の概要: Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
- arxiv url: http://arxiv.org/abs/2512.19686v1
- Date: Mon, 22 Dec 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.895432
- Title: Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
- Title(参考訳): 統一されたモデルにおける高忠実なビジュアル一貫性を実現するビジュアル・アウェアCoT
- Authors: Zixuan Ye, Quande Liu, Cong Wei, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhan Luo,
- Abstract要約: CoT(Chain-of-Thought)は統一モデルの生成能力を大幅に改善した。
本稿では,統一モデルの推論に視覚的コンテキスト整合性を導入する。
教師付きファインタニングを用いて、視覚的チェックの計画方法を教え、自己回帰と自己精製を行い、フロー-GRPOを使用して視覚的一貫性をさらに向上する。
- 参考スコア(独自算出の注目度): 50.87835332136393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the introduction of Chain-of-Thought (CoT) has largely improved the generation ability of unified models. However, it is observed that the current thinking process during generation mainly focuses on the text consistency with the text prompt, ignoring the \textbf{visual context consistency} with the visual reference images during the multi-modal generation, e.g., multi-reference generation. The lack of such consistency results in the failure in maintaining key visual features (like human ID, object attribute, style). To this end, we integrate the visual context consistency into the reasoning of unified models, explicitly motivating the model to sustain such consistency by 1) Adaptive Visual Planning: generating structured visual check list to figure out the visual element of needed consistency keeping, and 2) Iterative Visual Correction: performing self-reflection with the guidance of check lists and refining the generated result in an iterative manner. To achieve this, we use supervised finetuning to teach the model how to plan the visual checking, conduct self-reflection and self-refinement, and use flow-GRPO to further enhance the visual consistency through a customized visual checking reward. The experiments show that our method outperforms both zero-shot unified models and those with text CoTs in multi-modal generation, demonstrating higher visual context consistency.
- Abstract(参考訳): 近年,Chain-of-Thought (CoT)の導入により,統一モデルの生成能力が大きく向上した。
しかし、生成中の現在の思考過程は、主にテキストプロンプトとのテキスト整合性に焦点が当てられ、マルチモーダル生成中の視覚的参照画像、例えば、マルチ参照生成において、 \textbf{visual context consistency} を無視している。
このような一貫性の欠如は、主要な視覚的特徴(ヒューマンID、オブジェクト属性、スタイルなど)を維持するのに失敗する。
この目的のために、視覚的コンテキスト整合性を統一モデルの推論に統合し、そのような整合性を維持するためのモデルを明確に動機付けます。
1)適応型ビジュアルプランニング:必要な整合性維持の視覚的要素を把握するために構造化されたビジュアルチェックリストを生成する。
2)反復的視覚補正:チェックリストのガイダンスで自己回帰を行い、生成された結果を反復的に精査する。
これを実現するために、教師付き微調整を用いて、視覚的チェックの計画方法を教え、自己修正と自己修正を行い、フローGRPOを使用して、カスタマイズされた視覚的チェック報酬を通じて視覚的一貫性をさらに強化する。
実験の結果,本手法はマルチモーダル生成におけるゼロショット統一モデルとテキストCoTの両モデルより優れており,視覚的コンテキストの整合性が向上していることがわかった。
関連論文リスト
- ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion [40.50436862878818]
特定の表情の被写体を忠実に再現する拡散型フレームワークを提案する。
我々のアダプタは、基本的な感情を超えて微妙なマイクロ表現と表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
論文 参考訳(メタデータ) (2025-10-06T11:20:56Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。