論文の概要: Escaping Stochastic Traps with Aleatoric Mapping Agents
- arxiv url: http://arxiv.org/abs/2102.04399v1
- Date: Mon, 8 Feb 2021 18:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 07:08:02.972971
- Title: Escaping Stochastic Traps with Aleatoric Mapping Agents
- Title(参考訳): Aleatoric Mapping Agent による確率トラップのエスケープ
- Authors: Augustine N. Mavor-Parker, Kimberly A. Young, Caswell Barry, Lewis D.
Griffin
- Abstract要約: 少ない報奨のある環境を探索するためのアレータリックマッピングエージェント(AMA)を提案する。
AMAは、これらのダイナミクスがエージェントの作用によって引き起こされるかどうかにかかわらず、環境のどのダイナミクスが予測不可能であるかを明確に確認する。
AMAは、従来の好奇心誘導剤を固定する行動依存トラップを効果的に回避できることを示す。
- 参考スコア(独自算出の注目度): 8.679020335206753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration in environments with sparse rewards is difficult for artificial
agents. Curiosity driven learning -- using feed-forward prediction errors as
intrinsic rewards -- has achieved some success in these scenarios, but fails
when faced with action-dependent noise sources. We present aleatoric mapping
agents (AMAs), a neuroscience inspired solution modeled on the cholinergic
system of the mammalian brain. AMAs aim to explicitly ascertain which dynamics
of the environment are unpredictable, regardless of whether those dynamics are
induced by the actions of the agent. This is achieved by generating separate
forward predictions for the mean and variance of future states and reducing
intrinsic rewards for those transitions with high aleatoric variance. We show
AMAs are able to effectively circumvent action-dependent stochastic traps that
immobilise conventional curiosity driven agents. The code for all experiments
presented in this paper is open sourced:
http://github.com/self-supervisor/Escaping-Stochastic-Traps-With-Aleatoric-Mapping-Agents.
- Abstract(参考訳): 粗末な報酬のある環境での探索は、人工エージェントにとって困難である。
好奇心に基づく学習 -- フィードフォワード予測エラーを本質的な報酬として使用する -- は、これらのシナリオでいくつかの成功を収めているが、アクション依存のノイズ源に直面した場合には失敗する。
哺乳類の脳のコリン作動性神経系をモデルとした神経科学インスパイアソリューションであるaleatoric mapping agents(amas)を提案する。
AMAは、エージェントの作用によってそのダイナミクスが誘導されるかどうかに関わらず、環境のどのダイナミクスが予測不可能であるかを明確に確かめることを目的としている。
これは、将来の状態の平均と分散に対する別々の前方予測を生成し、高アレータティックな分散を持つ遷移に対する内在的な報酬を減少させることによって達成される。
AMAは従来の好奇心誘導剤を固定する行動依存確率的トラップを効果的に回避できることを示す。
本論文で紹介するすべての実験のコードは、オープンソース化されている。
関連論文リスト
- Hierarchical Imitation Learning for Stochastic Environments [31.64016324441371]
分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。
環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。
大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
論文 参考訳(メタデータ) (2023-09-25T10:10:34Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - PRANK: motion Prediction based on RANKing [4.4861975043227345]
エージェントの動作を予測することは、自律運転領域における最も重要な問題の一つである。
エージェントの軌道の条件分布を所定のシーンで決定できるPRANK法を提案する。
PRANKを社内とArgoverseのデータセットで評価し、競争結果を示す。
論文 参考訳(メタデータ) (2020-10-22T19:58:02Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Inverse Rational Control with Partially Observable Continuous Nonlinear
Dynamics [6.65264113799989]
神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。
この問題は制御理論によって解けるので、与えられた系力学と目的関数の最適作用を見つけることができる。
我々は、動物が独自の欠陥のある内部モデルを持っていると仮定し、その欠陥モデルに従って最も期待された主観的な報酬で行動を選択する。
ここでは、この問題を部分的に観測可能なマルコフ決定過程において離散制御するために解決した逆回帰制御に関する過去の研究を一般化する。
論文 参考訳(メタデータ) (2020-09-26T11:47:48Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Path Planning Using Probability Tensor Flows [1.491819755205193]
本稿では,潜在的に複雑なシナリオにおけるモデルエージェントの動作に確率伝搬を適用した。
後向きの流れは、エージェントの振る舞いに貴重なバックグラウンド情報を提供する。
出現する振る舞いは、非常に現実的で、このフレームワークを実環境に適用する大きな可能性を実証しています。
論文 参考訳(メタデータ) (2020-03-05T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。