論文の概要: Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.13640v1
- Date: Sat, 14 Feb 2026 07:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.310685
- Title: Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation
- Title(参考訳): 精密ロボットマニピュレーションのための階層型オーディオ・ビジュアル・プロプライオセプティブ・フュージョン
- Authors: Siyuan Li, Jiani Lu, Yu Song, Xianren Li, Bo An, Peng Liu,
- Abstract要約: 本稿では,音響インフォームド・インフォームド・インフォームド・インセプションによるロボットの精密操作を実現するための階層的表現融合フレームワークを提案する。
提案手法は,まず音響的キュー上での視覚的および受容的表現を条件とし,次に高次相互モーダル相互作用を明示的にモデル化する。
提案手法は, 液注やキャビネット開口を含む実世界のロボット操作作業において評価されている。
- 参考スコア(独自算出の注目度): 20.513615287956565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing robotic manipulation methods primarily rely on visual and proprioceptive observations, which may struggle to infer contact-related interaction states in partially observable real-world environments. Acoustic cues, by contrast, naturally encode rich interaction dynamics during contact, yet remain underexploited in current multimodal fusion literature. Most multimodal fusion approaches implicitly assume homogeneous roles across modalities, and thus design flat and symmetric fusion structures. However, this assumption is ill-suited for acoustic signals, which are inherently sparse and contact-driven. To achieve precise robotic manipulation through acoustic-informed perception, we propose a hierarchical representation fusion framework that progressively integrates audio, vision, and proprioception. Our approach first conditions visual and proprioceptive representations on acoustic cues, and then explicitly models higher-order cross-modal interactions to capture complementary dependencies among modalities. The fused representation is leveraged by a diffusion-based policy to directly generate continuous robot actions from multimodal observations. The combination of end-to-end learning and hierarchical fusion structure enables the policy to exploit task-relevant acoustic information while mitigating interference from less informative modalities. The proposed method has been evaluated on real-world robotic manipulation tasks, including liquid pouring and cabinet opening. Extensive experiment results demonstrate that our approach consistently outperforms state-of-the-art multimodal fusion frameworks, particularly in scenarios where acoustic cues provide task-relevant information not readily available from visual observations alone. Furthermore, a mutual information analysis is conducted to interpret the effect of audio cues in robotic manipulation via multimodal fusion.
- Abstract(参考訳): 既存のロボット操作法は、部分的に観測可能な実環境において、接触に関連する相互作用状態の推測に苦労する、視覚的および保護的観察に主に依存している。
対照的に、音響的手がかりは接触中のリッチな相互作用のダイナミクスを自然に符号化するが、現在のマルチモーダル融合文学では未解明のままである。
ほとんどのマルチモーダル融合アプローチは、モダリティをまたいだ均質な役割を暗黙的に仮定し、フラットかつ対称な融合構造を設計する。
しかし、この仮定は本質的に疎結合で接触駆動の音響信号には不適である。
音響インフォームド・インフォームド・インセプションによるロボットの精密な操作を実現するために,音声,視覚,プロジェノセプションを段階的に統合する階層的表現融合フレームワークを提案する。
提案手法は,まず音響的手がかりに対する視覚的・受容的表現を定式化し,さらに高次相互モーダル相互作用を明示的にモデル化し,モーダル間の相補的依存関係を捉える。
融合表現は拡散に基づくポリシーによって活用され、マルチモーダル観測から連続ロボットアクションを直接生成する。
エンド・ツー・エンドの学習と階層的な融合構造を組み合わせることで、より少ない情報モダリティからの干渉を軽減しつつ、タスク関連音響情報を活用することができる。
提案手法は, 液注やキャビネット開口を含む実世界のロボット操作作業において評価されている。
特に音響的手がかりが視覚的観察だけでは得られないタスク関連情報を提供する場合において,本手法は最先端のマルチモーダル融合フレームワークを一貫して上回ることを示す。
さらに,マルチモーダル融合によるロボット操作におけるオーディオキューの効果を解釈するために,相互情報分析を行った。
関連論文リスト
- InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation [1.7523719472700858]
我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
論文 参考訳(メタデータ) (2025-12-14T12:29:49Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Multi-modal perception for soft robotic interactions using generative models [2.4100803794273]
知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。
触覚や視覚などの複数の感覚モダリティの統合により、このプロセスが強化される。
本稿では,多種多様なモダリティからのデータを調和させて全体的状態表現を構築する知覚モデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:06:03Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。