論文の概要: ChatUMM: Robust Context Tracking for Conversational Interleaved Generation
- arxiv url: http://arxiv.org/abs/2602.06442v1
- Date: Fri, 06 Feb 2026 07:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.273957
- Title: ChatUMM: Robust Context Tracking for Conversational Interleaved Generation
- Title(参考訳): ChatUMM:対話型インターリーブ生成のためのロバストコンテキストトラッキング
- Authors: Wenxun Dai, Zhiyuan Zhao, Yule Zhong, Yiji Cheng, Jianwei Zhang, Linqing Wang, Shiyi Zhang, Yunlong Lin, Runze He, Fellix Song, Wayne Zhuang, Yong Liu, Haoji Zhang, Yansong Tang, Qinglin Lu, Chunyu Wang,
- Abstract要約: 統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
- 参考スコア(独自算出の注目度): 44.19929499646892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) have achieved remarkable progress yet remain constrained by a single-turn interaction paradigm, effectively functioning as solvers for independent requests rather than assistants in continuous dialogue. To bridge this gap, we present ChatUMM. As a conversational unified model, it excels at robust context tracking to sustain interleaved multimodal generation. ChatUMM derives its capabilities from two key innovations: an interleaved multi-turn training strategy that models serialized text-image streams as a continuous conversational flow, and a systematic conversational data synthesis pipeline. This pipeline transforms a diverse set of standard single-turn datasets into fluid dialogues through three progressive stages: constructing basic stateful dialogues, enforcing long-range dependency resolution via ``distractor'' turns with history-dependent query rewriting, and synthesizing naturally interleaved multimodal responses. Extensive evaluations demonstrate that ChatUMM achieves state-of-the-art performance among open-source unified models on visual understanding and instruction-guided editing benchmarks, while maintaining competitive fidelity in text-to-image generation. Notably, ChatUMM exhibits superior robustness in complex multi-turn scenarios, ensuring fluid, context-aware dialogues.
- Abstract(参考訳): 統一マルチモーダルモデル (UMM) は, 連続対話におけるアシスタントよりも独立した要求の解法として効果的に機能する単一ターン相互作用パラダイムによって, 目覚ましい進歩を遂げている。
このギャップを埋めるために、ChatUMMを紹介します。
会話統合モデルとして、インターリーブされたマルチモーダル生成を維持するために、堅牢なコンテキストトラッキングに優れる。
ChatUMMは、シリアライズされたテキストイメージストリームを連続的な会話フローとしてモデル化するインターリーブされたマルチターントレーニング戦略と、システマティックな会話データ合成パイプラインという、2つの重要なイノベーションから生まれた。
このパイプラインは、基本的なステートフルな対話の構築、‘distractor’ターンによる長距離依存解決と履歴依存のクエリ書き換え、自然にインターリーブされたマルチモーダル応答の合成という3つの段階を通じて、さまざまな標準シングルターンデータセットを流体対話に変換する。
広汎な評価により,ChatUMMはテキスト・ツー・イメージ生成における競争力を維持しつつ,視覚的理解と命令誘導型編集ベンチマークにおいて,オープンソース統一モデル間の最先端性能を実現していることが示された。
特に、ChatUMMは複雑なマルチターンシナリオにおいて優れた堅牢性を示し、流動的でコンテキスト対応の対話を保証する。
関連論文リスト
- DA-Mamba: Dialogue-aware selective state-space model for multimodal engagement estimation [15.106664911098882]
DA-Mambaは、注目度の高い対話エンコーダをMambaベースの選択状態空間処理に置き換える対話対応マルチモーダルアーキテクチャである。
DA-Mambaは, コンコーダンス相関係数(CCC)において, 先行技術(SOTA)法を超越していることを示す。
これにより、より長いシーケンスの処理が可能になり、リソース制約のある複数パーティの会話設定でのリアルタイムデプロイメントが容易になる。
論文 参考訳(メタデータ) (2025-09-22T12:48:42Z) - F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model [18.21432204057241]
きめ細かいフラグメント検索(FFR)は、クエリ関連フラグメントを見つけるためにモデルを必要とするタスクである。
F2RVLMは、2段階のパラダイムで訓練された生成的検索モデルである。
ドメイン内設定と実ドメイン設定の両方で、人気のあるVision-Language Modelよりも優れています。
論文 参考訳(メタデータ) (2025-08-25T06:42:47Z) - Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model [43.533849239738394]
Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。
様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。
視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-16T16:06:45Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。