論文の概要: How to Stay Curious while Avoiding Noisy TVs using Aleatoric Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2102.04399v3
- Date: Fri, 5 Jul 2024 12:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 06:10:05.916572
- Title: How to Stay Curious while Avoiding Noisy TVs using Aleatoric Uncertainty Estimation
- Title(参考訳): Aleatoric Uncertainty Estimation を用いたノイズの多いテレビを回避しながらクレージーを保つ方法
- Authors: Augustine N. Mavor-Parker, Kimberly A. Young, Caswell Barry, Lewis D. Griffin,
- Abstract要約: 少ない報奨のある環境を探索するためのアレータリックマッピングエージェント(AMA)を提案する。
AMAは、これらのダイナミクスがエージェントの作用によって引き起こされるかどうかにかかわらず、環境のどのダイナミクスが予測不可能であるかを明確に確認する。
AMAは、従来の好奇心誘導剤を固定する行動依存トラップを効果的に回避できることを示す。
- 参考スコア(独自算出の注目度): 8.61325246419028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration in environments with sparse rewards is difficult for artificial agents. Curiosity driven learning -- using feed-forward prediction errors as intrinsic rewards -- has achieved some success in these scenarios, but fails when faced with action-dependent noise sources. We present aleatoric mapping agents (AMAs), a neuroscience inspired solution modeled on the cholinergic system of the mammalian brain. AMAs aim to explicitly ascertain which dynamics of the environment are unpredictable, regardless of whether those dynamics are induced by the actions of the agent. This is achieved by generating separate forward predictions for the mean and variance of future states and reducing intrinsic rewards for those transitions with high aleatoric variance. We show AMAs are able to effectively circumvent action-dependent stochastic traps that immobilise conventional curiosity driven agents. The code for all experiments presented in this paper is open sourced: http://github.com/self-supervisor/Escaping-Stochastic-Traps-With-Aleatoric-Mapping-Agents.
- Abstract(参考訳): 粗末な報酬のある環境での探索は、人工エージェントにとって困難である。
好奇心駆動学習(フィードフォワード予測エラーを本質的な報奨として使用する)はこれらのシナリオでいくつかの成功を収めたが、アクション依存ノイズ源に直面すると失敗する。
哺乳動物の脳のコリン作動性システムをモデルとした神経科学にインスパイアされた解法であるAleatoric mapping agent (AMA) について述べる。
AMAは、エージェントの作用によってそのダイナミクスが誘導されるかどうかに関わらず、環境のどのダイナミクスが予測不可能であるかを明確に確かめることを目的としている。
これは、将来の状態の平均と分散に対する別々の前方予測を生成し、高いアレタリックな分散を伴う遷移に対する固有の報酬を減少させることによって達成される。
AMAは従来の好奇心誘導剤を固定する行動依存確率的トラップを効果的に回避できることを示す。
http://github.com/self-supervisor/Escaping-Stochastic-Traps-With-Aleatoric-Mapping-Agents。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Uncertainty-Aware Pedestrian Trajectory Prediction via Distributional Diffusion [26.715578412088327]
モデルに依存しない不確実性を考慮した歩行者軌道予測手法を提案する。
従来の研究とは異なり、予測性は明示的な分布に変換され、予測可能な将来の軌道を生成することができる。
私たちのフレームワークは、さまざまなニューラルネットアーキテクチャと互換性があります。
論文 参考訳(メタデータ) (2023-03-15T04:58:43Z) - Curiosity in hindsight [44.0810681836261]
世界の構造因果モデルから導かれる自然解について検討する。
エージェントのモデルにそのような近視表現を組み込むことを提案する。
我々は,非粘着条件下での性能を保ちながら,粘着作用の探索においてSOTAの結果を示す。
論文 参考訳(メタデータ) (2022-11-18T21:49:53Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - PRANK: motion Prediction based on RANKing [4.4861975043227345]
エージェントの動作を予測することは、自律運転領域における最も重要な問題の一つである。
エージェントの軌道の条件分布を所定のシーンで決定できるPRANK法を提案する。
PRANKを社内とArgoverseのデータセットで評価し、競争結果を示す。
論文 参考訳(メタデータ) (2020-10-22T19:58:02Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Path Planning Using Probability Tensor Flows [1.491819755205193]
本稿では,潜在的に複雑なシナリオにおけるモデルエージェントの動作に確率伝搬を適用した。
後向きの流れは、エージェントの振る舞いに貴重なバックグラウンド情報を提供する。
出現する振る舞いは、非常に現実的で、このフレームワークを実環境に適用する大きな可能性を実証しています。
論文 参考訳(メタデータ) (2020-03-05T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。