Fugu-MT 論文翻訳(概要): Deterministic Exploration via Stationary Bellman Error Maximization

論文の概要: Deterministic Exploration via Stationary Bellman Error Maximization

arxiv url: http://arxiv.org/abs/2410.23840v1
Date: Thu, 31 Oct 2024 11:46:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.781974
Title: Deterministic Exploration via Stationary Bellman Error Maximization
Title（参考訳）: 定常ベルマン誤差最大化による決定論的探索
Authors: Sebastian Griesbach, Carlo D'Eramo,
Abstract要約: 探索は強化学習(RL)の重要かつ特異な側面である本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
参考スコア（独自算出の注目度）: 6.474106100512158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploration is a crucial and distinctive aspect of reinforcement learning (RL) that remains a fundamental open problem. Several methods have been proposed to tackle this challenge. Commonly used methods inject random noise directly into the actions, indirectly via entropy maximization, or add intrinsic rewards that encourage the agent to steer to novel regions of the state space. Another previously seen idea is to use the Bellman error as a separate optimization objective for exploration. In this paper, we introduce three modifications to stabilize the latter and arrive at a deterministic exploration policy. Our separate exploration agent is informed about the state of the exploitation, thus enabling it to account for previous experiences. Further components are introduced to make the exploration objective agnostic toward the episode length and to mitigate instability introduced by far-off-policy learning. Our experimental results show that our approach can outperform $\varepsilon$-greedy in dense and sparse reward settings.
Abstract（参考訳）: 探索は、根本的オープンな問題である強化学習(RL)の重要な特徴であり、特異な側面である。この課題に対処するいくつかの方法が提案されている。一般的に用いられる方法は、アクションに直接ランダムノイズを注入し、エントロピーの最大化を通じて間接的に、あるいはエージェントが状態空間の新たな領域に操ることを奨励する本質的な報酬を加える。もう1つはベルマン誤差を探索のための別の最適化目的として使うというものである。本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。我々の別々の調査エージェントは、エクスプロイトの状況について通知され、それによって以前の経験を考慮できる。さらに、エピソード長に対する探索目的の非依存化と、遠方政治学習によってもたらされる不安定性を軽減するために、さらなるコンポーネントが導入される。実験結果から,本手法は高密度かつスパースな報酬設定において,$\varepsilon$-greedyよりも優れていることがわかった。

関連論文リスト

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning [53.58654277639939]
文脈内探索(In-context Exploring)は、単一の連続した文脈内で仮説を生成、検証、洗練する本質的な能力である。本稿では,モデルにさらなる探索を促すLongth-Incentivized Explorationを提案する。提案手法は、ドメイン内タスクの平均4.4%改善と、ドメイン外ベンチマークの2.7%向上を実現している。
論文参考訳（メタデータ） (2026-02-12T09:24:32Z)
Exploitation Is All You Need... for Exploration [0.0]
実験対象を最大化するために訓練されたエージェントは, にもかかわらず, 創発的な探索行動を示すことができることを示す。適切な前提条件の下では、探索と搾取は目的として扱われる必要はないが、統一的な報酬-最大化プロセスから生まれる可能性がある。
論文参考訳（メタデータ） (2025-08-02T09:42:59Z)
Learning to Explore in Diverse Reward Settings via Temporal-Difference-Error Maximization [6.474106100512158]
本研究では,密度,疎度,探索-逆報酬設定に対して頑健な,新しい探索手法である安定誤差探索(SEE)を提案する。本手法では,遠方政治学習による不安定性の軽減,累積的TDエラーをエピソード設定で最大化する関心の対立,TDエラーの非定常的性質の3つの設計選択を導入する。
論文参考訳（メタデータ） (2025-06-16T10:36:24Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Exploration by Running Away from the Past [5.062282108230929]
我々は、州占領対策のシャノンエントロピーを最大化する問題として探索を考えている。これは、エージェントの過去の振舞いと現在の振舞いを表す分布間の相違の列を最大化する。本研究では,過去の経験から積極的に距離を置くことによってエージェントの探索を促すことで,迷路を効果的に探索し,ロボット操作や移動作業における幅広い行動を明らかにすることを実証する。
論文参考訳（メタデータ） (2024-11-21T12:51:09Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。 RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。 RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Guarantees for Epsilon-Greedy Reinforcement Learning with Function Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文参考訳（メタデータ） (2022-06-19T14:44:40Z)
When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。目標達成後の探査を「後探査」と呼ぶ。我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文参考訳（メタデータ） (2022-03-29T16:50:12Z)
Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。 ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文参考訳（メタデータ） (2021-10-06T17:05:33Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
ADER:Adapting between Exploration and Robustness for Actor-Critic Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文参考訳（メタデータ） (2021-09-08T05:48:39Z)
Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。本稿では,評価値のバイアスや時間的に矛盾する点を強調した。本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文参考訳（メタデータ） (2020-10-05T18:11:22Z)
Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文参考訳（メタデータ） (2020-07-27T11:28:32Z)
Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。本稿では,多目的RLに基づくフレームワークを提案する。この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文参考訳（メタデータ） (2020-04-06T02:37:29Z)
Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文参考訳（メタデータ） (2020-02-14T13:57:22Z)
Long-Term Visitation Value for Deep Exploration in Sparse Reward Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文参考訳（メタデータ） (2020-01-01T01:01:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。