論文の概要: CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.20362v1
- Date: Tue, 23 Dec 2025 13:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.891829
- Title: CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation
- Title(参考訳): CRAFT:マルチモーダルテキスト・画像生成のための連続推論とエージェントフィードバックチューニング
- Authors: V. Kovalev, A. Kuvshinov, A. Buzovkin, D. Pokidov, D. Timonin,
- Abstract要約: CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は、マルチモーダル画像生成に構造化推論パラダイムをもたらす、トレーニング不要でモデルに依存しないフレームワークである。
コンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善する。
これらの改善は無視できる推論時間のオーバーヘッドに過ぎず、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that inference-time reasoning and reflection can improve text-to-image generation without retraining. However, existing approaches often rely on implicit, holistic critiques or unconstrained prompt rewrites, making their behavior difficult to interpret, control, or stop reliably. In contrast, large language models have benefited from explicit, structured forms of **thinking** based on verification, targeted correction, and early stopping. We introduce CRAFT (Continuous Reasoning and Agentic Feedback Tuning), a training-free, model-agnostic framework that brings this structured reasoning paradigm to multimodal image generation. CRAFT decomposes a prompt into dependency-structured visual questions, veries generated images using a vision-language model, and applies targeted prompt edits through an LLM agent only where constraints fail. The process iterates with an explicit stopping criterion once all constraints are satised, yielding an interpretable and controllable inference-time renement loop. Across multiple model families and challenging benchmarks, CRAFT consistently improves compositional accuracy, text rendering, and preference-based evaluations, with particularly strong gains for lightweight generators. Importantly, these improvements incur only a negligible inference-time overhead, allowing smaller or cheaper models to approach the quality of substantially more expensive systems. Our results suggest that explicitly structured, constraint-driven inference-time reasoning is a key ingredient for improving the reliability of multimodal generative models.
- Abstract(参考訳): 近年の研究では、推論時間推論とリフレクションが、再トレーニングなしにテキスト・ツー・イメージ生成を改善することが示されている。
しかし、既存のアプローチは暗黙的で全体主義的な批判や、制約のない急進的な書き直しに依存しており、それらの振る舞いを解釈し、制御し、確実に停止することを困難にしている。
対照的に、大きな言語モデルは、検証、ターゲットの修正、早期停止に基づく**の明示的で構造化された形式の*考え*の恩恵を受けている。
CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は,この構造的推論パラダイムをマルチモーダル画像生成に適用する,トレーニング不要でモデルに依存しないフレームワークである。
CRAFTは、プロンプトを依存性構造化された視覚的質問に分解し、視覚言語モデルを用いて生成された画像を検証する。
このプロセスは、全ての制約が満たされると明示的な停止基準で反復し、解釈可能で制御可能な推論時レンメントループを生成する。
複数のモデルファミリと挑戦的なベンチマークを通じて、CRAFTはコンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善し、特に軽量ジェネレータでは大きな利益を上げている。
重要な点として、これらの改善は無視可能な推論時間オーバーヘッドしか発生しないため、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
この結果から,制約駆動型推論時間推論が多モード生成モデルの信頼性向上の鍵となることが示唆された。
関連論文リスト
- The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO [36.69910114305134]
我々は、優先モデルを強化するために、反復自己ふりかえり直接選好最適化(ISR-DPO)を提案する。
ISR-DPOは、情報的ビデオ領域に対する自己判断の焦点を強化する。
広範な経験的評価では、ISR-DPOは芸術の状態を著しく上回る。
論文 参考訳(メタデータ) (2024-06-17T07:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。