論文の概要: Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems
- arxiv url: http://arxiv.org/abs/2107.02195v1
- Date: Mon, 5 Jul 2021 18:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 14:01:05.368085
- Title: Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems
- Title(参考訳): 聴取エージェント:複数感覚システムを用いた高出力強化学習
- Authors: Shashank Hegde, Anssi Kanervisto, Aleksei Petrenko
- Abstract要約: そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
- 参考スコア(独自算出の注目度): 6.952659395337689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans and other intelligent animals evolved highly sophisticated perception
systems that combine multiple sensory modalities. On the other hand,
state-of-the-art artificial agents rely mostly on visual inputs or structured
low-dimensional observations provided by instrumented environments. Learning to
act based on combined visual and auditory inputs is still a new topic of
research that has not been explored beyond simple scenarios. To facilitate
progress in this area we introduce a new version of VizDoom simulator to create
a highly efficient learning environment that provides raw audio observations.
We study the performance of different model architectures in a series of tasks
that require the agent to recognize sounds and execute instructions given in
natural language. Finally, we train our agent to play the full game of Doom and
find that it can consistently defeat a traditional vision-based adversary. We
are currently in the process of merging the augmented simulator with the main
ViZDoom code repository. Video demonstrations and experiment code can be found
at https://sites.google.com/view/sound-rl.
- Abstract(参考訳): 人間や他の知的動物は、複数の感覚様相を結合した高度に洗練された知覚システムを進化させた。
一方で、最先端の人工エージェントは、主に計測された環境によって提供される視覚入力や構造化された低次元の観察に依存している。
視覚と聴覚の組み合わせに基づく行動学習は、単純なシナリオを超えて研究されていない研究の新たなトピックである。
この領域の進展を促進するために,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築する。
本研究では,自然言語による音声認識と指示の実行をエージェントが要求する一連のタスクにおいて,異なるモデルアーキテクチャの性能について検討する。
最後に、エージェントにDoomのフルゲームをするよう訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることを見つけます。
現在、拡張シミュレータをメインのViZDoomコードリポジトリにマージ中です。
ビデオデモと実験コードはhttps://sites.google.com/view/sound-rl.comで見ることができる。
関連論文リスト
- ViSaRL: Visual Reinforcement Learning Guided by Human Saliency [6.969098096933547]
ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。
ViSaRLを用いて視覚表現を学習すると、RLエージェントの成功率、サンプル効率、一般化が大幅に向上する。
ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-03-16T14:52:26Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - See, Hear, Explore: Curiosity via Audio-Visual Association [46.86865495827888]
好奇心駆動探索の一般的な定式化は、学習モデルによって予測される現実と未来の違いを使用する。
本稿では,異なる感覚の新たな関連性に報いる新たな好奇心について紹介する。
我々のアプローチは、より効率的な探索のためのより強力な信号を提供するために、複数のモダリティを利用する。
論文 参考訳(メタデータ) (2020-07-07T17:56:35Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。