論文の概要: From Instruction to Event: Sound-Triggered Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2601.21667v1
- Date: Thu, 29 Jan 2026 13:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.831549
- Title: From Instruction to Event: Sound-Triggered Mobile Manipulation
- Title(参考訳): インストラクションからイベントへ:サウンドトリガーモバイルマニピュレーション
- Authors: Hao Ju, Shaofei Huang, Hongyu Li, Zihan Ding, Si Liu, Meng Wang, Zhedong Zheng,
- Abstract要約: エージェントは、明示的な動作指示を伴わずに、アクティブに音波を知覚し、対話しなくてはならない。
これらのタスクを支援するために,音響レンダリングと物理的相互作用を統合するデータプラットフォームHabitat-Echoを開発した。
広汎な実験により,提案したベースラインはエージェントに対して,ケースバイケース命令を不要にすることで,聴覚イベントを積極的に検出し,応答することを可能にする。
- 参考スコア(独自算出の注目度): 40.389756061779444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current mobile manipulation research predominantly follows an instruction-driven paradigm, where agents rely on predefined textual commands to execute tasks. However, this setting confines agents to a passive role, limiting their autonomy and ability to react to dynamic environmental events. To address these limitations, we introduce sound-triggered mobile manipulation, where agents must actively perceive and interact with sound-emitting objects without explicit action instructions. To support these tasks, we develop Habitat-Echo, a data platform that integrates acoustic rendering with physical interaction. We further propose a baseline comprising a high-level task planner and low-level policy models to complete these tasks. Extensive experiments show that the proposed baseline empowers agents to actively detect and respond to auditory events, eliminating the need for case-by-case instructions. Notably, in the challenging dual-source scenario, the agent successfully isolates the primary source from overlapping acoustic interference to execute the first interaction, and subsequently proceeds to manipulate the secondary object, verifying the robustness of the baseline.
- Abstract(参考訳): 現在のモバイル操作の研究は、主に命令駆動のパラダイムに従っており、エージェントはタスクを実行するために事前に定義されたテキストコマンドに依存する。
しかし、この設定はエージェントを受動的な役割に制限し、その自律性と動的な環境イベントに反応する能力を制限する。
これらの制約に対処するため,エージェントは明示的な動作指示を伴わずに,能動的に音波を知覚し,対話しなくてはならない。
これらのタスクを支援するために,音響レンダリングと物理的相互作用を統合するデータプラットフォームHabitat-Echoを開発した。
さらに,これらのタスクを完了させるために,ハイレベルなタスクプランナと低レベルなポリシーモデルからなるベースラインを提案する。
広汎な実験により,提案したベースラインはエージェントに対して,ケースバイケース命令を不要にすることで,聴覚イベントを積極的に検出し,応答することを可能にする。
特に、難解な二重ソースのシナリオでは、エージェントは一次ソースを重なり合う音響干渉から分離して最初のインタラクションを実行し、次に二次オブジェクトを操作し、ベースラインの堅牢性を検証する。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning [46.70182219204539]
SpeakRLは、エージェントの会話能力を高めるための強化学習(RL)手法である。
本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
論文 参考訳(メタデータ) (2025-12-15T10:08:53Z) - InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation [1.7523719472700858]
我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
論文 参考訳(メタデータ) (2025-12-14T12:29:49Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Generative Prompt Internalization [48.91617280112579]
本稿では,共同学習手法を用いる軽量な手法であるGenerative Prompt Internalization (GenPI)を提案する。
GenPIは、プロンプト入力でモデルの振る舞いを複製するだけでなく、プロンプトの内容も生成する。
エージェントベースのアプリケーションシナリオにおいて,このアプローチが複雑なプロンプトを効果的に内部化することを示す。
論文 参考訳(メタデータ) (2024-11-24T17:32:20Z) - Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation [32.70952356211433]
共同音声による動作生成手法は、通常、音声内容のみによる上半身のジェスチャーに焦点をあてる。
既存の音声と動きのデータセットは、非常に限定されたフルボディの動きのみを含む。
市販のテキスト・トゥ・モーション・データセットを補助として利用するSynTalkerを提案する。
論文 参考訳(メタデータ) (2024-10-01T07:46:05Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - Adaptive In-Context Learning with Large Language Models for Bundle Generation [31.667010709144773]
本稿では、異なるユーザセッションに基づいて、パーソナライズされたバンドル生成と、その基盤となる意図推論という2つの相互関連タスクについて検討する。
大規模言語モデル(LLM)の推論能力に着想を得て,適応型インコンテキスト学習パラダイムを提案する。
提案手法の有効性を実世界の3つのデータセットで実証した。
論文 参考訳(メタデータ) (2023-12-26T08:24:24Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。