論文の概要: VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
- arxiv url: http://arxiv.org/abs/2510.21817v1
- Date: Tue, 21 Oct 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.540037
- Title: VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
- Title(参考訳): VITA-E: 同時視, 聴, 話し, 行動による自然な身体的相互作用
- Authors: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He,
- Abstract要約: 現在のビジョン・ランゲージ・アクション(VLA)モデルは、しばしば堅固で静的な相互作用パラダイムによって制約される。
VITA-Eは、動作とほぼリアルタイムの割り込みの両方のために設計された、新しい具体的相互作用フレームワークである。
- 参考スコア(独自算出の注目度): 66.90028121194636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.
- Abstract(参考訳): 現在のVision-Language-Action(VLA)モデルは、しばしば、リアルタイムユーザーの割り込みを動的に扱うだけでなく、見る、聞く、話す、並行する能力に欠ける、厳格で静的な相互作用パラダイムによって制約される。
これによってシームレスなコラボレーションが妨げられ、柔軟性に欠けるユーザエクスペリエンスが実現します。
これらの制約に対処するために,動作の並行性とほぼリアルタイムの割り込みを両立させた,新しい対話フレームワークVITA-Eを導入する。
我々のアプローチの中核は、2つの並列VLAインスタンスが ``Active Model'' と ``Standby Model''' として動作するデュアルモデルアーキテクチャである。
さらに、モデル・アズ・コントローラのパラダイムを提案し、VLMを微調整して直接システムレベルのコマンドとして機能する特別なトークンを生成し、モデルの推論とシステムの振る舞いを結合する。
物理的ヒューマノイドプラットフォーム上での実験は、VITA-Eが複雑な対話シナリオを確実に扱えることを示した。
我々のフレームワークは、様々なデュアルシステムVLAモデルと互換性があり、緊急停止や音声中断において極めて高い成功率を達成し、同時に音声とアクションの同時実行にも成功している。
これは、より自然で有能なエンボディアシスタントへの重要な一歩である。
関連論文リスト
- End-to-end Listen, Look, Speak and Act [22.047534228540783]
ELLSAは、より自然で一般的な対話型人工知能への一歩であり、人工知能の幅広い追求に寄与している。
中心となるのはSA-MoE(Attention Mixture-of-Experts)で、それぞれのモダリティを専門の専門家にルーティングすることで、統一された注意バックボーンを通じてそれらを融合させる。
論文 参考訳(メタデータ) (2025-10-19T08:45:46Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - What to Say and When to Say it: Live Fitness Coaching as a Testbed for Situated Interaction [5.958765450103163]
QEVDベンチマークとデータセットは、フィットネスコーチングの挑戦的かつ制御されながら現実的な領域における人間とAIの相互作用を探索するものだ。
このベンチマークでは、複雑な人間の行動を認識し、起こりうる誤りを特定し、リアルタイムで適切なフィードバックを提供するために、視覚言語モデルが必要である。
そこで本研究では,適切なタイミングで適切なフィードバックで人間の行動に非同期に応答できる,シンプルなエンドツーエンドストリーミングベースラインを提案する。
論文 参考訳(メタデータ) (2024-07-11T00:10:45Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。