論文の概要: Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
- arxiv url: http://arxiv.org/abs/2601.20911v1
- Date: Wed, 28 Jan 2026 17:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.372035
- Title: Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
- Title(参考訳): 履歴記述型MLLMを用いた非マルコフ多言語対話画像生成
- Authors: Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li, Zhipeng Fan, Meng Dong, Xiaoliang Dai, Tingbo Hou, Peizhao Zhang, Zecheng He,
- Abstract要約: 対話型画像生成には、複数の対話ラウンドにわたるユーザ指示に従うモデルが必要である。
既存のマルチターンベンチマークとトレーニングのレシピのほとんどは、事実上Markovである。
我々は、より困難な非マルコフ設定を形式化し、ターゲットとします。
- 参考スコア(独自算出の注目度): 46.78151113533813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational image generation requires a model to follow user instructions across multiple rounds of interaction, grounded in interleaved text and images that accumulate as chat history. While recent multimodal large language models (MLLMs) can generate and edit images, most existing multi-turn benchmarks and training recipes are effectively Markov: the next output depends primarily on the most recent image, enabling shortcut solutions that ignore long-range history. In this work we formalize and target the more challenging non-Markov setting, where a user may refer back to earlier states, undo changes, or reference entities introduced several rounds ago. We present (i) non-Markov multi-round data construction strategies, including rollback-style editing that forces retrieval of earlier visual states and name-based multi-round personalization that binds names to appearances across rounds; (ii) a history-conditioned training and inference framework with token-level caching to prevent multi-round identity drift; and (iii) enabling improvements for high-fidelity image reconstruction and editable personalization, including a reconstruction-based DiT detokenizer and a multi-stage fine-tuning curriculum. We demonstrate that explicitly training for non-Markov interactions yields substantial improvements in multi-round consistency and instruction compliance, while maintaining strong single-round editing and personalization.
- Abstract(参考訳): 対話型画像生成は、チャット履歴として蓄積されるインターリーブされたテキストと画像に基盤を置き、対話の複数のラウンドにわたるユーザー指示に従うモデルを必要とする。
最近のマルチモーダル大言語モデル(MLLM)は画像を生成・編集できるが、既存のマルチターンベンチマークやトレーニングのレシピは事実上マルコフである: 次の出力は主に最新の画像に依存し、長距離履歴を無視したショートカットソリューションを可能にする。
この作業では、より困難な非マルコフ設定を形式化し、ターゲットとします。
特集にあたって
(i)初期の視覚状態の検索を強制するロールバックスタイルの編集や、ラウンドの外観に名前と結合する名前に基づく複数ラウンドのパーソナライゼーションを含む、マルコフ以外のマルチラウンドデータ構築戦略
(二)マルチラウンドアイデンティティドリフトを防止するためにトークンレベルのキャッシュを用いた履歴条件付きトレーニングおよび推論フレームワーク
3)高忠実度画像再構成と編集可能なパーソナライズを実現し,再現型DiTデトケナイザと多段階微調整カリキュラムを備える。
非マルコフ相互作用に対する明示的なトレーニングは、強力なシングルラウンド編集とパーソナライゼーションを維持しつつ、マルチラウンドの一貫性と命令コンプライアンスを大幅に向上させることを示した。
関連論文リスト
- Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing [16.943575863059607]
Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
論文 参考訳(メタデータ) (2025-11-15T03:15:34Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文 参考訳(メタデータ) (2025-03-13T14:07:58Z) - ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。
提案手法は,次の場面における記述課題の性能向上に寄与する。
ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-26T18:55:06Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。