論文の概要: OtoWorld: Towards Learning to Separate by Learning to Move
- arxiv url: http://arxiv.org/abs/2007.06123v1
- Date: Sun, 12 Jul 2020 22:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:37:26.471298
- Title: OtoWorld: Towards Learning to Separate by Learning to Move
- Title(参考訳): OtoWorld: 学習と移動の分離を目指す
- Authors: Omkar Ranadive, Grant Gasser, David Terpay, Prem Seetharaman
- Abstract要約: OtoWorldは対話型環境であり、エージェントはナビゲーションタスクを解決するために耳を傾けることを学ばなければならない。
OtoWorldは環境とエージェントインタラクションのためのOpenAI Gym、レイトレーシングシミュレーションのためのPyRoomAcoustics、ディープコンピュータオーディションモデルのトレーニングのためのnusslという3つのオープンソースライブラリ上に構築されている。
- 参考スコア(独自算出の注目度): 5.288977149942441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present OtoWorld, an interactive environment in which agents must learn to
listen in order to solve navigational tasks. The purpose of OtoWorld is to
facilitate reinforcement learning research in computer audition, where agents
must learn to listen to the world around them to navigate. OtoWorld is built on
three open source libraries: OpenAI Gym for environment and agent interaction,
PyRoomAcoustics for ray-tracing and acoustics simulation, and nussl for
training deep computer audition models. OtoWorld is the audio analogue of
GridWorld, a simple navigation game. OtoWorld can be easily extended to more
complex environments and games. To solve one episode of OtoWorld, an agent must
move towards each sounding source in the auditory scene and "turn it off". The
agent receives no other input than the current sound of the room. The sources
are placed randomly within the room and can vary in number. The agent receives
a reward for turning off a source. We present preliminary results on the
ability of agents to win at OtoWorld. OtoWorld is open-source and available.
- Abstract(参考訳): 我々は,ナビゲーションタスクを解決するためにエージェントが聞き取りを学ばなければならない対話型環境であるotoworldを提案する。
OtoWorldの目的は、コンピュータオーディションにおける強化学習の研究を促進することである。
OtoWorldは環境とエージェントインタラクションのためのOpenAI Gym、レイトレーシングと音響シミュレーションのためのPyRoomAcoustics、深層コンピュータオーディションモデルのトレーニングのためのnusslという3つのオープンソースライブラリ上に構築されている。
OtoWorldは単純なナビゲーションゲームであるGridWorldのオーディオアナログだ。
OtoWorldは、より複雑な環境やゲームに容易に拡張できる。
OtoWorldの1つのエピソードを解決するために、エージェントは聴覚シーンの各音源に向かって移動し、「オフにする」必要がある。
エージェントは、部屋の現在の音以外の入力を受け取らない。
ソースは室内にランダムに配置され、数によって異なる。
エージェントは、ソースをオフにした報酬を受け取る。
我々はOtoWorldでエージェントが勝つ能力について予備的な結果を示す。
OtoWorldはオープンソースで公開されている。
関連論文リスト
- OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - NovelGym: A Flexible Ecosystem for Hybrid Planning and Learning Agents
Designed for Open Worlds [18.53489803464924]
NovelGymはグリッドワールド環境をシミュレートするフレキシブルなエコシステムである。
オープンワールドにおける強化学習(RL)とハイブリッド計画および学習エージェントのベンチマークのための堅牢なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2024-01-07T17:13:28Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - ALAN: Autonomously Exploring Robotic Agents in the Real World [28.65531878636441]
ALANは自律的なロボットエージェントで、ほとんどトレーニングや対話の時間なしで現実世界でタスクを実行できる。
これは、物体の動きを反映し、ロボットの位置の変化を無視する環境変化を測定することで実現される。
我々は,ロボットが操作スキルを効率的に探索し,発見することを可能にするために,2つの異なる実世界のプレイキッチン設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-02-13T18:59:09Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - A Deep Reinforcement Learning Approach for Audio-based Navigation and
Audio Source Localization in Multi-speaker Environments [1.0527821704930371]
本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。
我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。
また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
論文 参考訳(メタデータ) (2021-10-25T10:18:34Z) - Robust Reinforcement Learning-based Autonomous Driving Agent for
Simulation and Real World [0.0]
本稿では,Deep Q-Networks (DQN) を用いた自律型ロボット制御を実現するDRLベースのアルゴリズムを提案する。
本手法では,エージェントはシミュレーション環境で訓練され,シミュレーション環境と実環境環境の両方をナビゲートすることができる。
トレーニングされたエージェントは限られたハードウェアリソース上で動作することができ、そのパフォーマンスは最先端のアプローチに匹敵する。
論文 参考訳(メタデータ) (2020-09-23T15:23:54Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。