論文の概要: Exploration Behavior of Untrained Policies
- arxiv url: http://arxiv.org/abs/2506.22566v1
- Date: Fri, 27 Jun 2025 18:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.467944
- Title: Exploration Behavior of Untrained Policies
- Title(参考訳): 未訓練政策の探索行動
- Authors: Jacob Adamczyk,
- Abstract要約: 深層神経政策のアーキテクチャが、トレーニング前に探索を暗黙的に形成する方法について研究する。
無限幅ネットワークの理論と連続時間制限を用いて、訓練されていないポリシーは相関作用を返却し、非自明な状態ビジュアライゼーション分布をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration remains a fundamental challenge in reinforcement learning (RL), particularly in environments with sparse or adversarial reward structures. In this work, we study how the architecture of deep neural policies implicitly shapes exploration before training. We theoretically and empirically demonstrate strategies for generating ballistic or diffusive trajectories from untrained policies in a toy model. Using the theory of infinite-width networks and a continuous-time limit, we show that untrained policies return correlated actions and result in non-trivial state-visitation distributions. We discuss the distributions of the corresponding trajectories for a standard architecture, revealing insights into inductive biases for tackling exploration. Our results establish a theoretical and experimental framework for using policy initialization as a design tool to understand exploration behavior in early training.
- Abstract(参考訳): 探索は強化学習(RL)における基礎的な課題であり、特にスパースや敵対的な報酬構造を持つ環境においてである。
本研究では,深層神経政策のアーキテクチャが学習前の探索を暗黙的に形成する方法について検討する。
我々は,おもちゃモデルにおける未学習の政策から,弾道的あるいは拡散的軌跡を生成するための戦略を理論的,実証的に実証した。
無限幅ネットワークの理論と連続時間制限を用いて、訓練されていないポリシーは相関作用を返却し、非自明な状態ビジュアライゼーション分布をもたらすことを示す。
本稿では,標準アーキテクチャにおける対応する軌道の分布について論じ,探索に対処するための帰納的バイアスに関する洞察を明らかにする。
本研究は,早期学習における探索行動を理解するための設計ツールとしてポリシー初期化を利用するための理論的,実験的枠組みを構築した。
関連論文リスト
- Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。