論文の概要: Noisy Agents: Self-supervised Exploration by Predicting Auditory Events
- arxiv url: http://arxiv.org/abs/2007.13729v1
- Date: Mon, 27 Jul 2020 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:34:14.922018
- Title: Noisy Agents: Self-supervised Exploration by Predicting Auditory Events
- Title(参考訳): 騒音エージェント:聴覚事象の予測による自己監視探索
- Authors: Chuang Gan, Xiaoyu Chen, Phillip Isola, Antonio Torralba, Joshua B.
Tenenbaum
- Abstract要約: 本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 127.82594819117753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans integrate multiple sensory modalities (e.g. visual and audio) to build
a causal understanding of the physical world. In this work, we propose a novel
type of intrinsic motivation for Reinforcement Learning (RL) that encourages
the agent to understand the causal effect of its actions through auditory event
prediction. First, we allow the agent to collect a small amount of acoustic
data and use K-means to discover underlying auditory event clusters. We then
train a neural network to predict the auditory events and use the prediction
errors as intrinsic rewards to guide RL exploration. Experimental results on
Atari games show that our new intrinsic motivation significantly outperforms
several state-of-the-art baselines. We further visualize our noisy agents'
behavior in a physics environment and demonstrate that our newly designed
intrinsic reward leads to the emergence of physical interaction behaviors (e.g.
contact with objects).
- Abstract(参考訳): 人間は、物理的世界の因果的理解を構築するために、複数の感覚的様相(視覚や音声など)を統合する。
本研究は,聴覚イベント予測による行動の因果効果をエージェントに理解させる,強化学習(rl)に対する新たな本質的動機付け手法を提案する。
まず、エージェントが少量の音響データを収集し、K平均を用いて、基礎となる聴覚イベントクラスタを発見する。
次に、ニューラルネットワークを訓練して聴覚イベントを予測し、予測誤差を内在的な報酬としてrl探索を導く。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
さらに, 物理環境でのノイズエージェントの挙動を可視化し, 新たに設計した本質的な報酬が, 物理的相互作用行動(物体との接触など)の出現に繋がることを示す。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Affect-Aware Deep Belief Network Representations for Multimodal
Unsupervised Deception Detection [3.04585143845864]
ラベルを必要とせず、ビデオの現実世界、高い盗難を検出するための教師なしのアプローチ。
本稿では,感情を意識しないDeep Belief Networks (DBN) の新たなアプローチを提案する。
また、DBNモデルを訓練する機能として顔の感情を使用するだけでなく、音声・視覚表現の整列器として顔の感情を利用するDBN訓練手順も導入する。
論文 参考訳(メタデータ) (2021-08-17T22:07:26Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - Causal Curiosity: RL Agents Discovering Self-supervised Experiments for
Causal Representation Learning [24.163616087447874]
心因性好奇心(em causal curiosity)は,本質的な報酬である。
エージェントが最適な行動列を学習できることを示す。
また、因果因子表現の知識は、より複雑なタスクにおいてゼロショット学習に役立つことを示す。
論文 参考訳(メタデータ) (2020-10-07T02:07:51Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。