論文の概要: Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction
- arxiv url: http://arxiv.org/abs/2405.02821v2
- Date: Tue, 10 Sep 2024 23:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:17:34.430604
- Title: Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction
- Title(参考訳): 周波数適応音場予測を用いた音場ナビゲーションのためのSim2Real Transfer
- Authors: Changan Chen, Jordi Ramos, Anshul Tomar, Kristen Grauman,
- Abstract要約: 本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
- 参考スコア(独自算出の注目度): 51.71299452862839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sim2real transfer has received increasing attention lately due to the success of learning robotic tasks in simulation end-to-end. While there has been a lot of progress in transferring vision-based navigation policies, the existing sim2real strategy for audio-visual navigation performs data augmentation empirically without measuring the acoustic gap. The sound differs from light in that it spans across much wider frequencies and thus requires a different solution for sim2real. We propose the first treatment of sim2real for audio-visual navigation by disentangling it into acoustic field prediction (AFP) and waypoint navigation. We first validate our design choice in the SoundSpaces simulator and show improvement on the Continuous AudioGoal navigation benchmark. We then collect real-world data to measure the spectral difference between the simulation and the real world by training AFP models that only take a specific frequency subband as input. We further propose a frequency-adaptive strategy that intelligently selects the best frequency band for prediction based on both the measured spectral difference and the energy distribution of the received audio, which improves the performance on the real data. Lastly, we build a real robot platform and show that the transferred policy can successfully navigate to sounding objects. This work demonstrates the potential of building intelligent agents that can see, hear, and act entirely from simulation, and transferring them to the real world.
- Abstract(参考訳): Sim2realトランスファーは最近、シミュレーションのエンドツーエンドにおけるロボットタスクの学習の成功により注目を集めている。
視覚ベースのナビゲーションポリシーの転送には多くの進歩があったが、既存の音声視覚ナビゲーションのsim2real戦略は、音響的ギャップを計測することなく、経験的にデータ拡張を行う。
音は、より広い周波数にまたがる光とは異なるため、sim2realには別の解を必要とする。
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
SoundSpacesシミュレータの設計選択を最初に検証し、Continuous AudioGoalナビゲーションベンチマークの改善を示す。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
さらに、測定されたスペクトル差と受信した音声のエネルギー分布の両方に基づいて、予測のための最良の周波数帯域をインテリジェントに選択し、実データの性能を向上させる周波数適応戦略を提案する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
この研究は、シミュレーションから完全に見たり、聴いたり、行動したりできるインテリジェントなエージェントを構築する可能性を示し、それらを現実世界に転送する。
関連論文リスト
- Dynamics as Prompts: In-Context Learning for Sim-to-Real System Identifications [23.94013806312391]
そこで本研究では,テキスト内学習を用いてシミュレーション環境パラメータを動的に調整する手法を提案する。
オブジェクトスクーピングとテーブルエアホッケーという2つのタスクにまたがるアプローチを検証する。
提案手法は,ロボットの動的現実シナリオへの展開を推し進め,効率的かつスムーズなシステム識別を実現する。
論文 参考訳(メタデータ) (2024-10-27T07:13:38Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - RARA: Zero-shot Sim2Real Visual Navigation with Following Foreground
Cues [42.998649025215045]
我々は、カメラベースのナビゲーションの特定のケースに取り組み、任意の背景を持つ前景の視覚的キューに従うように定式化する。
目標は、この前景のキューを除いて、空のシミュレーション環境でキャプチャされたデータに視覚エージェントを訓練し、視覚的に多様な現実世界で直接このモデルをテストすることである。
論文 参考訳(メタデータ) (2022-01-08T09:53:21Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。