論文の概要: Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation
- arxiv url: http://arxiv.org/abs/2603.16086v1
- Date: Tue, 17 Mar 2026 03:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.084079
- Title: Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation
- Title(参考訳): ビジョン・サウンド・ランゲージ・アクション・パラダイムに向けて:音中心操作のためのHEARフレームワーク
- Authors: Chang Nie, Tianchen Deng, Guangming Wang, Zhe Liu, Hesheng Wang,
- Abstract要約: 本稿では,視覚・ストリーミング音声・言語・プロプライエセプションを考慮した連続制御パラダイムとして,VSLA(Vision-Sound-Language-Action)を定式化した。
i) 実行ギャップをまたいだコンパクトで因果的な音声コンテキストを維持するためのストリーミングヒストリザ、(ii) オームニ基礎モデルから多感覚入力を推論するエンビジョンタ、(iii) オーディオワールドモデルとして定式化されたアドバンサ、そして(iv) 流れを予測して時間的ダイナミクスを学ぶための、VSLAフレームワークであるHEARを紹介する。
- 参考スコア(独自算出の注目度): 26.766367856312694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent Vision-Language-Action (VLA) models have begun to incorporate audio, they typically treat sound as static pre-execution prompts or focus exclusively on human speech. This leaves a significant gap in real-time, sound-centric manipulation where fleeting environmental acoustics provide critical state verification during task execution. Consequently, key sounds are easily missed due to low-frequency updates or system latency. This problem is exacerbated by action chunking with open-loop execution, which creates a Blind Execution Interval where acoustic events are lost between discrete audio observation windows. Recognizing the necessity of continuous auditory awareness, we formalize Vision-Sound-Language-Action (VSLA) as a continuous control paradigm conditioned on vision, streaming audio, language, and proprioception under delayed decision loops. As an instantiation, we introduce HEAR, a VSLA framework integrating four components: (i) a streaming Historizer to maintain a compact, causal audio context across execution gaps; (ii) an Envisioner adapted from omni foundation models to reason over multi-sensory inputs; (iii) an Advancer, formulated as an audio world model, to learn temporal dynamics by predicting near-future audio codes; and (iv) a flow-matching Realizer policy to generate smooth action chunks. To address the scarcity of pretraining data and evaluations for VSLA, we construct OpenX-Sound for pretraining, alongside HEAR-Bench, the first sound-centric manipulation benchmark with strict causal timing rules. Our results suggest that robust sound-centric manipulation necessitates causal persistence and explicit temporal learning. This framework provides a practical step toward multi-sensory foundation models for embodied agents, enabling robots to perceive and interact with dynamic environments. Code and videos are available at https://hear.irmv.top.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルでは音声が組み込まれ始めているが、音を静的な事前実行プロンプトとして扱う場合や、人間の発話のみに焦点を当てる場合が多い。
このことは、環境音響がタスク実行中に重要な状態検証を提供するリアルタイム、音中心の操作において、大きなギャップを残している。
そのため、低周波の更新やシステム遅延のため、キーサウンドは簡単に見逃される。
この問題は、オープンループ実行によるアクションチャンキングによって悪化し、個別のオーディオ観測窓間で音響イベントが失われるブラインド実行区間を生成する。
連続的な聴覚認知の必要性を認識し,視覚・ストリーミング音声・言語・プロプライエセプションを遅延決定ループ下での連続的な制御パラダイムとして,VSLA(Vision-Sound-Language-Action)を定式化する。
インスタンス化として,4つのコンポーネントを統合するVSLAフレームワークであるHEARを紹介します。
i) 実行ギャップを越えたコンパクトで因果的な音声コンテキストを維持するためのストリーミングヒストリザ。
(二 オームニ基礎モデルから多感覚入力の推論に適合した構想者
三 近未来の音声を予測して時相力学を学ぶための音声世界モデルとして定式化されたアドバンサ
(iv)スムーズなアクションチャンクを生成するフローマッチングリアライザポリシー。
VSLAの事前学習データや評価の不足に対処するため,厳格な因果タイミングルールを持つ最初の音中心型評価ベンチマークであるHEAR-Benchとともに,事前学習のためのOpenX-Soundを構築した。
以上の結果から,頑健な音声中心の操作は因果的持続性と時間的学習を必要とすることが示唆された。
このフレームワークは、ロボットが動的環境を知覚し、相互作用することを可能にする、エンボディエージェントのためのマルチ感覚基盤モデルに向けた実践的なステップを提供する。
コードとビデオはhttps://hear.irmv.top.comで公開されている。
関連論文リスト
- Selective Noise Suppression and Discriminative Mutual Interaction for Robust Audio-Visual Segmentation [59.11043512784162]
本稿では,SNRPモジュールとDAMF戦略を備えたSDAVSを提案する。
実験により,提案手法はベンチマークAVSデータセットの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-03-15T03:22:24Z) - Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation [9.480328219158254]
現実の環境は本質的に動的であり、オーディオや視覚的な分布は時間とともに進化する。
単一ソースとマルチソースのAVSデータセットにまたがる4つの学習プロトコルを含む,Audio-Visualの最初の連続学習ベンチマークを紹介する。
低ランクアンコリング (LRA) を導入し, 損失感度に基づいて適応重量を安定化させることにより, 破滅的忘れを緩和する。
論文 参考訳(メタデータ) (2026-03-09T21:58:14Z) - Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。