論文の概要: Exploration by Running Away from the Past
- arxiv url: http://arxiv.org/abs/2411.14085v1
- Date: Thu, 21 Nov 2024 12:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:30.946400
- Title: Exploration by Running Away from the Past
- Title(参考訳): 過去からの脱出による探究
- Authors: Paul-Antoine Le Tolguenec, Yann Besse, Florent Teichteil-Koenigsbuch, Dennis G. Wilson, Emmanuel Rachelson,
- Abstract要約: 我々は、州占領対策のシャノンエントロピーを最大化する問題として探索を考えている。
これは、エージェントの過去の振舞いと現在の振舞いを表す分布間の相違の列を最大化する。
本研究では,過去の経験から積極的に距離を置くことによってエージェントの探索を促すことで,迷路を効果的に探索し,ロボット操作や移動作業における幅広い行動を明らかにすることを実証する。
- 参考スコア(独自算出の注目度): 5.062282108230929
- License:
- Abstract: The ability to explore efficiently and effectively is a central challenge of reinforcement learning. In this work, we consider exploration through the lens of information theory. Specifically, we cast exploration as a problem of maximizing the Shannon entropy of the state occupation measure. This is done by maximizing a sequence of divergences between distributions representing an agent's past behavior and its current behavior. Intuitively, this encourages the agent to explore new behaviors that are distinct from past behaviors. Hence, we call our method RAMP, for ``$\textbf{R}$unning $\textbf{A}$way fro$\textbf{m}$ the $\textbf{P}$ast.'' A fundamental question of this method is the quantification of the distribution change over time. We consider both the Kullback-Leibler divergence and the Wasserstein distance to quantify divergence between successive state occupation measures, and explain why the former might lead to undesirable exploratory behaviors in some tasks. We demonstrate that by encouraging the agent to explore by actively distancing itself from past experiences, it can effectively explore mazes and a wide range of behaviors on robotic manipulation and locomotion tasks.
- Abstract(参考訳): 効率的に効果的に探索する能力は、強化学習の中心的な課題である。
本研究では,情報理論のレンズによる探索について考察する。
具体的には,州占領対策のシャノンエントロピーを最大化する問題として,調査を行った。
これは、エージェントの過去の振舞いと現在の振舞いを表す分布間の相違の列を最大化する。
直感的には、これはエージェントが過去の行動とは異なる新しい行動を探ることを奨励する。
したがって、我々のメソッド RAMP を ``$\textbf{R}$unning $\textbf{A}$way fro$\textbf{m}$ the $\textbf{P}$ast と呼びます。
「この方法の根本的な疑問は、時間とともに分布の変化の定量化である。
我々は、クルバック・リーブラーの分岐とワッサーシュタイン距離の両方を、連続した国家占領対策のばらつきを定量化するために考慮し、なぜ前者がいくつかのタスクにおいて望ましくない探索行動を引き起こすのかを説明する。
本研究では,過去の経験から積極的に距離を置くことによってエージェントの探索を促すことで,迷路を効果的に探索し,ロボット操作や移動作業における幅広い行動を明らかにすることを実証する。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - A Temporally Correlated Latent Exploration for Reinforcement Learning [4.1101087490516575]
時間的関連潜伏探索(TeCLE)は、行動条件付き潜伏空間と時間的相関を用いた、本質的な報酬の定式化である。
その結果, エージェントの探索行動は時間的相関によって決定されることがわかった。
我々は,提案するTeCLEが,ベンチマーク環境でのノイズTVのアンドリティに対して堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-12-06T04:38:43Z) - Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Maximum State Entropy Exploration using Predecessor and Successor
Representations [17.732962106114478]
動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
論文 参考訳(メタデータ) (2023-06-26T16:08:26Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Primal Wasserstein Imitation Learning [44.87651595571687]
概念的にシンプルなアルゴリズムに基づく新しいImitation Learning (IL)法: Primal Wasserstein Imitation Learning (PWIL)を提案する。
エージェントインタラクションや環境とのエキスパートインタラクションの観点から,MuJoCoドメインのさまざまな連続制御タスクに関する専門家の振る舞いを,サンプルで効率的に再現できることが示される。
論文 参考訳(メタデータ) (2020-06-08T15:30:11Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。