論文の概要: Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
- arxiv url: http://arxiv.org/abs/2512.19686v1
- Date: Mon, 22 Dec 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.895432
- Title: Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
- Title(参考訳): 統一されたモデルにおける高忠実なビジュアル一貫性を実現するビジュアル・アウェアCoT
- Authors: Zixuan Ye, Quande Liu, Cong Wei, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhan Luo,
- Abstract要約: CoT(Chain-of-Thought)は統一モデルの生成能力を大幅に改善した。
本稿では,統一モデルの推論に視覚的コンテキスト整合性を導入する。
教師付きファインタニングを用いて、視覚的チェックの計画方法を教え、自己回帰と自己精製を行い、フロー-GRPOを使用して視覚的一貫性をさらに向上する。
- 参考スコア(独自算出の注目度): 50.87835332136393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the introduction of Chain-of-Thought (CoT) has largely improved the generation ability of unified models. However, it is observed that the current thinking process during generation mainly focuses on the text consistency with the text prompt, ignoring the \textbf{visual context consistency} with the visual reference images during the multi-modal generation, e.g., multi-reference generation. The lack of such consistency results in the failure in maintaining key visual features (like human ID, object attribute, style). To this end, we integrate the visual context consistency into the reasoning of unified models, explicitly motivating the model to sustain such consistency by 1) Adaptive Visual Planning: generating structured visual check list to figure out the visual element of needed consistency keeping, and 2) Iterative Visual Correction: performing self-reflection with the guidance of check lists and refining the generated result in an iterative manner. To achieve this, we use supervised finetuning to teach the model how to plan the visual checking, conduct self-reflection and self-refinement, and use flow-GRPO to further enhance the visual consistency through a customized visual checking reward. The experiments show that our method outperforms both zero-shot unified models and those with text CoTs in multi-modal generation, demonstrating higher visual context consistency.
- Abstract(参考訳): 近年,Chain-of-Thought (CoT)の導入により,統一モデルの生成能力が大きく向上した。
しかし、生成中の現在の思考過程は、主にテキストプロンプトとのテキスト整合性に焦点が当てられ、マルチモーダル生成中の視覚的参照画像、例えば、マルチ参照生成において、 \textbf{visual context consistency} を無視している。
このような一貫性の欠如は、主要な視覚的特徴(ヒューマンID、オブジェクト属性、スタイルなど)を維持するのに失敗する。
この目的のために、視覚的コンテキスト整合性を統一モデルの推論に統合し、そのような整合性を維持するためのモデルを明確に動機付けます。
1)適応型ビジュアルプランニング:必要な整合性維持の視覚的要素を把握するために構造化されたビジュアルチェックリストを生成する。
2)反復的視覚補正:チェックリストのガイダンスで自己回帰を行い、生成された結果を反復的に精査する。
これを実現するために、教師付き微調整を用いて、視覚的チェックの計画方法を教え、自己修正と自己修正を行い、フローGRPOを使用して、カスタマイズされた視覚的チェック報酬を通じて視覚的一貫性をさらに強化する。
実験の結果,本手法はマルチモーダル生成におけるゼロショット統一モデルとテキストCoTの両モデルより優れており,視覚的コンテキストの整合性が向上していることがわかった。
関連論文リスト
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation [63.042451267669485]
Inference-time Scaling のための Prompt Redesign を提案する。これは、拡張された視覚世代に対応するために、推論中にプロンプトを適応的に修正するフレームワークである。
そこで我々は,素早い属性と生成した視覚の微粒化レベルでのアライメントを評価する,新しい検証手法である要素レベルの事実補正を導入する。
テキスト・ツー・イメージ・ベンチマークとテキスト・ツー・ビデオ・ベンチマークによる実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-12-03T07:54:05Z) - ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion [40.50436862878818]
特定の表情の被写体を忠実に再現する拡散型フレームワークを提案する。
我々のアダプタは、基本的な感情を超えて微妙なマイクロ表現と表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
論文 参考訳(メタデータ) (2025-10-06T11:20:56Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。