論文の概要: U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation
- arxiv url: http://arxiv.org/abs/2602.23739v1
- Date: Fri, 27 Feb 2026 07:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.292414
- Title: U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation
- Title(参考訳): U-Mind: リアルタイムマルチモーダルインタラクションと映像生成のための統一フレームワーク
- Authors: Xiang Deng, Feng Gao, Yong Zhang, Youxin Pang, Xu Xiaoming, Zhuoliang Kang, Xiaoming Wei, Yebin Liu,
- Abstract要約: 我々は,高知能マルチモーダル対話のための最初の統一システムであるU-Mindを紹介する。
リアルタイム生成と共同モデル言語、音声、モーション、ビデオ合成をサポートする。
U-Mindは様々なマルチモーダルインタラクションタスクにおいて最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 48.6868174403074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-stack multimodal interaction in real-time is a central goal in building intelligent embodied agents capable of natural, dynamic communication. However, existing systems are either limited to unimodal generation or suffer from degraded reasoning and poor cross-modal alignment, preventing coherent and perceptually grounded interactions. In this work, we introduce U-Mind, the first unified system for high-intelligence multimodal dialogue that supports real-time generation and jointly models language, speech, motion, and video synthesis within a single interactive loop. At its core, U-Mind implements a Unified Alignment and Reasoning Framework that addresses two key challenges: enhancing cross-modal synchronization via a segment-wise alignment strategy, and preserving reasoning abilities through Rehearsal-Driven Learning. During inference, U-Mind adopts a text-first decoding pipeline that performs internal chain-of-thought planning followed by temporally synchronized generation across modalities. To close the loop, we implement a real-time video rendering framework conditioned on pose and speech, enabling expressive and synchronized visual feedback. Extensive experiments demonstrate that U-Mind achieves state-of-the-art performance on a range of multimodal interaction tasks, including question answering, instruction following, and motion generation, paving the way toward intelligent, immersive conversational agents.
- Abstract(参考訳): リアルタイムにおけるフルスタックマルチモーダルインタラクションは、自然な動的通信が可能なインテリジェントなエンボディエージェントを構築するための中心的な目標である。
しかし、既存のシステムは単調な生成に制限されるか、劣化した推論と相互のアライメントに悩まされ、コヒーレントで知覚的に接地された相互作用を妨げている。
本研究では,1つの対話ループ内での言語,音声,動き,ビデオ合成をリアルタイムに生成し,協調的にモデル化する,高知能マルチモーダル対話のための最初の統合システムであるU-Mindを紹介する。
U-MindのコアとなるのはUnified Alignment and Reasoning Frameworkで、セグメントワイドアライメント戦略によるクロスモーダル同期の強化とリハーサル駆動学習による推論能力の維持という2つの課題に対処している。
推論中、U-Mindはテキストファーストのデコードパイプラインを採用し、内部チェーン・オブ・ソート計画を実行し、その後、モーダル間で時間的に同期された生成を行う。
ループを閉じるために、ポーズと音声を条件としたリアルタイムビデオレンダリングフレームワークを実装し、表現的かつ同期的な視覚フィードバックを可能にする。
広範囲にわたる実験により、U-Mindは、質問応答、指示追従、動き生成など、様々な多モーダル相互作用タスクにおいて最先端のパフォーマンスを達成し、インテリジェントで没入的な会話エージェントへの道を歩むことを示した。
関連論文リスト
- Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems [31.911085541071028]
本稿では,聴取時思考と話し時思考を可能にする低レイテンシアーキテクチャを提案する。
2つの音声対話ベンチマークの実験により、DDTSRは応答遅延を19%-51%削減することを示した。
論文 参考訳(メタデータ) (2026-02-26T17:39:56Z) - ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文 参考訳(メタデータ) (2026-02-06T07:11:50Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning [44.254412516852874]
現在の手法では、マルチモーダルプランニングに統一された生成フレームワークを採用できないため、マルチモーダルプランニングでは矛盾する。
提案手法は,動的事前学習と強化アライメントを取り入れた新しいトレーニングパイプラインにより,長期タスクのマルチモーダル計画を実現する。
論文 参考訳(メタデータ) (2025-11-03T10:24:49Z) - End-to-end Listen, Look, Speak and Act [22.047534228540783]
ELLSAは、より自然で一般的な対話型人工知能への一歩であり、人工知能の幅広い追求に寄与している。
中心となるのはSA-MoE(Attention Mixture-of-Experts)で、それぞれのモダリティを専門の専門家にルーティングすることで、統一された注意バックボーンを通じてそれらを融合させる。
論文 参考訳(メタデータ) (2025-10-19T08:45:46Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [114.35537839800372]
音声はマルチモーダル対話システムにおいて重要な役割を担い、視覚と音声の両方にハイパフォーマンスを実装することは依然として重要な課題である。
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強いだけでなく, ASR と TTS モジュールを分離することなく, 音声音声対話を効率的に行うことができる。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。