論文の概要: Learning Robot Manipulation from Audio World Models
- arxiv url: http://arxiv.org/abs/2512.08405v1
- Date: Tue, 09 Dec 2025 09:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.224972
- Title: Learning Robot Manipulation from Audio World Models
- Title(参考訳): 音響世界モデルを用いたロボット操作の学習
- Authors: Fan Zhang, Michael Gienger,
- Abstract要約: そこで本研究では,将来的な音響観測を予測できる生成型潜時流マッチングモデルを提案する。
2つの操作タスクを通じて,システムの性能を実証する。
- 参考スコア(独自算出の注目度): 7.51335919610328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.
- Abstract(参考訳): 世界モデルは、ロボット学習のタスクで素晴らしいパフォーマンスを誇示している。
このようなタスクの多くは本質的にマルチモーダルな推論を必要としており、例えば、ボトルを水で満たすことは、視覚的な情報のみを曖昧または不完全なものにし、それによって、その基礎となる物理的特性とピッチパターンを考慮に入れながら、音声の時間的進化を推論する必要がある。
本稿では,将来的な音声観測を予測し,ロボットポリシーに統合された場合の長期的結果の推論を可能にするため,生成型潜時流マッチングモデルを提案する。
そこで本システムでは,将来的なルックアヘッドを伴わない手法と比較して,帯域内オーディオや音楽信号の知覚を必要とする2つの操作タスクを通じて,システムの性能を実証する。
さらに、これらのタスクにおけるロボット行動学習の成功は、単にマルチモーダル入力に依存するだけでなく、本質的なリズムパターンを具現化した将来の音声状態の正確な予測にも大きく依存する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data [28.36623343236893]
我々は,同期音声と視覚的フィードバックを伴って人体でのデモを収集する「アー・イン・ハンド」データ収集装置であるManiWAVを紹介する。
また,本システムでは,多種多様な人間の実演から学習することで,未知の環境に一般化できることを示す。
論文 参考訳(メタデータ) (2024-06-27T18:06:38Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Learning from Demonstration with Weakly Supervised Disentanglement [19.292205450379996]
本稿では,確率的生成モデルに対する最適化問題として,実証から解釈可能な学習の課題を論じる。
このようなアライメントは、エンドユーザーからのラベルを使用することで、適切に制限された語彙で達成できることを示す。
本手法は,PR2ロボットが行う2つのテーブルトップロボット操作タスクの文脈で評価する。
論文 参考訳(メタデータ) (2020-06-16T12:29:51Z) - Understanding Contexts Inside Robot and Human Manipulation Tasks through
a Vision-Language Model and Ontology System in a Video Stream [4.450615100675747]
本稿では,ロボットと人間の操作の双方に対して,厳密な制約付き知識領域の下で視覚データセットを提案する。
本稿では,視覚的注意とコモンセンス知識に満ちた知識グラフを組み合わせて生成する手法を提案する。
提案手法により,ロボットはリアルタイム映像を視聴することで,人間の意図的な動作を模倣することができる。
論文 参考訳(メタデータ) (2020-03-02T19:48:59Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。