論文の概要: Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear
- arxiv url: http://arxiv.org/abs/2306.00923v2
- Date: Sat, 16 Sep 2023 22:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:39:34.323919
- Title: Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear
- Title(参考訳): Sonicverse: 耳を聴く身体障害者のための多感覚シミュレーションプラットフォーム
- Authors: Ruohan Gao, Hao Li, Gokul Dharan, Zhuzhu Wang, Chengshu Li, Fei Xia,
Silvio Savarese, Li Fei-Fei, Jiajun Wu
- Abstract要約: Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
- 参考スコア(独自算出の注目度): 65.33183123368804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing embodied agents in simulation has been a key research topic in
recent years. Exciting new tasks, algorithms, and benchmarks have been
developed in various simulators. However, most of them assume deaf agents in
silent environments, while we humans perceive the world with multiple senses.
We introduce Sonicverse, a multisensory simulation platform with integrated
audio-visual simulation for training household agents that can both see and
hear. Sonicverse models realistic continuous audio rendering in 3D environments
in real-time. Together with a new audio-visual VR interface that allows humans
to interact with agents with audio, Sonicverse enables a series of embodied AI
tasks that need audio-visual perception. For semantic audio-visual navigation
in particular, we also propose a new multi-task learning model that achieves
state-of-the-art performance. In addition, we demonstrate Sonicverse's realism
via sim-to-real transfer, which has not been achieved by other simulators: an
agent trained in Sonicverse can successfully perform audio-visual navigation in
real-world environments. Sonicverse is available at:
https://github.com/StanfordVL/Sonicverse.
- Abstract(参考訳): 近年,シミュレーションにおけるエンボディエージェントの開発が重要な研究課題となっている。
新しいタスク、アルゴリズム、ベンチマークが様々なシミュレータで開発されている。
しかし、ほとんどの人は静かな環境で聴覚障害者を仮定し、人間は複数の感覚で世界を知覚する。
我々は,家庭内エージェントの視聴覚訓練のための音声・視聴覚シミュレーションを組み込んだ多センサシミュレーションプラットフォームであるsonicverseを紹介する。
sonicverseは3d環境でリアルタイムに現実的な連続オーディオレンダリングをモデル化する。
人間が音声でエージェントと対話できる新しい音声視覚VRインターフェースとともに、Sonicverseは音声視覚認識を必要とする一連のAIタスクを実現する。
また,特にセマンティック音声視覚ナビゲーションにおいて,最先端の性能を実現するマルチタスク学習モデルを提案する。
さらに,他のシミュレータでは実現されていないsim-to-real転送によるソニックバースの現実性を示す。
Sonicverse は https://github.com/StanfordVL/Sonicverse で入手できる。
関連論文リスト
- Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Virtual Reality in Metaverse over Wireless Networks with User-centered
Deep Reinforcement Learning [8.513938423514636]
無線通信シナリオ上でのマルチユーザVR計算のオフロードについて紹介する。
さらに, ユーザ中心の深層強化学習手法を考案し, ほぼ最適解を求める。
論文 参考訳(メタデータ) (2023-03-08T03:10:41Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。