論文の概要: End-to-end Listen, Look, Speak and Act
- arxiv url: http://arxiv.org/abs/2510.16756v1
- Date: Sun, 19 Oct 2025 08:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.131274
- Title: End-to-end Listen, Look, Speak and Act
- Title(参考訳): エンドツーエンドの聞き取り, 聞き取り, 話し取り, 行為
- Authors: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Chao Zhang,
- Abstract要約: ELLSAは、より自然で一般的な対話型人工知能への一歩であり、人工知能の幅広い追求に寄与している。
中心となるのはSA-MoE(Attention Mixture-of-Experts)で、それぞれのモダリティを専門の専門家にルーティングすることで、統一された注意バックボーンを通じてそれらを融合させる。
- 参考スコア(独自算出の注目度): 22.047534228540783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human interaction is inherently multimodal and full-duplex: we listen while watching, speak while acting, and fluidly adapt to turn-taking and interruptions. Realizing these capabilities is essential for building models simulating humans. We present ELLSA (End-to-end Listen, Look, Speak and Act), which, to our knowledge, is the first full-duplex, end-to-end model that simultaneously perceives and generates across vision, text, speech, and action within a single architecture, enabling interaction patterns previously out of reach, yielding more natural, human-like behaviors. At its core is a novel SA-MoE architecture (Self-Attention Mixture-of-Experts) that routes each modality to specialized experts and fuses them through a unified attention backbone. This provides a generalizable solution for joint multimodal perception and concurrent generation, leveraging strong pre-trained components while enabling efficient modality integration and mitigating modality interference. On speech-interaction and robot-manipulation benchmarks, ELLSA matches modality-specific baselines, while uniquely supporting advanced multimodal and full-duplex behaviors such as dialogue and action turn-taking, defective instruction rejection, speaking-while-acting, context-grounded visual question answering, and action barge-ins. We contend that ELLSA represents a step toward more natural and general interactive intelligence, contributing to the broader pursuit of artificial general intelligence. All data, code and model checkpoints will be released upon acceptance.
- Abstract(参考訳): 人間のインタラクションは本質的にはマルチモーダルでフルデュプレックスで、監視しながら耳を傾け、行動しながら話し、ターンテイキングや中断に流動的に適応します。
これらの能力を実現することは、人間をシミュレートするモデルを構築するのに不可欠である。
ELSA(End-to-end Listen, Look, Speak and Act)は、私たちの知る限り、単一のアーキテクチャ内で視覚、テキスト、スピーチ、アクションを同時に知覚し、生成し、より自然で人間的な振る舞いをもたらす最初のフル・ダブル・エンド・ツー・エンド・モデルである。
コアとなるSA-MoEアーキテクチャ(Self-Attention Mixture-of-Experts)は、各モダリティを専門の専門家にルーティングし、それらを統一された注目バックボーンを通じて融合させるものだ。
これにより、結合マルチモーダル知覚と同時生成のための一般化可能なソリューションが提供され、強力な事前学習されたコンポーネントを活用しながら、効率的なモダリティ積分とモダリティ干渉の緩和を実現している。
音声インタラクションとロボット操作のベンチマークでは、ELSAはモダリティ固有のベースラインと一致し、対話やアクションのターンテイク、欠陥のある命令拒否、発話時動作、コンテキストグラウンドの視覚的質問応答、アクションバージインといった高度なマルチモーダルおよびフルダブルな動作を独自にサポートしている。
ELSAは、より自然的で汎用的な知性への一歩であり、人工知能の幅広い追求に寄与している、と我々は主張する。
すべてのデータ、コード、モデルチェックポイントは、受け入れ次第リリースされます。
関連論文リスト
- FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。
MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。
このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文 参考訳(メタデータ) (2025-03-16T19:32:32Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。