論文の概要: Uncertainty-driven Adaptive Exploration
- arxiv url: http://arxiv.org/abs/2509.03219v1
- Date: Wed, 03 Sep 2025 11:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.493983
- Title: Uncertainty-driven Adaptive Exploration
- Title(参考訳): 不確実性駆動型適応探索
- Authors: Leonidas Bakopoulos, Georgios Chalkiadakis,
- Abstract要約: 本稿では、この重要な問題に原則的に対処するために不確実性を利用する汎用適応探索フレームワークを提案する。
いくつかの MuJoCo 環境において,本フレームワークが標準手法よりも優れた適応探索戦略を実現することを実験的に実証した。
- 参考スコア(独自算出の注目度): 2.724733075765838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adaptive exploration methods propose ways to learn complex policies via alternating between exploration and exploitation. An important question for such methods is to determine the appropriate moment to switch between exploration and exploitation and vice versa. This is critical in domains that require the learning of long and complex sequences of actions. In this work, we present a generic adaptive exploration framework that employs uncertainty to address this important issue in a principled manner. Our framework includes previous adaptive exploration approaches as special cases. Moreover, we can incorporate in our framework any uncertainty-measuring mechanism of choice, for instance mechanisms used in intrinsic motivation or epistemic uncertainty-based exploration methods. We experimentally demonstrate that our framework gives rise to adaptive exploration strategies that outperform standard ones across several MuJoCo environments.
- Abstract(参考訳): 適応探索法は、探索と搾取の交互に複雑な政策を学ぶ方法を提案する。
このような手法の重要な疑問は、探索と搾取を切り替える適切なタイミングを決定することであり、その逆である。
これは、長く複雑なアクション列の学習を必要とする領域において重要である。
本研究では、この重要な問題に原則的に対処するために不確実性を利用する汎用適応探索フレームワークを提案する。
本フレームワークは, 従来の適応探索手法を特例として含んでいる。
さらに、本フレームワークには、例えば本質的な動機づけや疫学的な不確実性に基づく探索手法で使用されるメカニズムなど、不確実性の測定メカニズムが組み込まれている。
いくつかの MuJoCo 環境において,本フレームワークが標準手法よりも優れた適応探索戦略を実現することを実験的に実証した。
関連論文リスト
- Learning to explore when mistakes are not allowed [1.179778723980276]
本研究では,悪質なミスを犯すリスクを伴わずに探索する目標条件付き行動の学習を可能にする手法を提案する。
リスクのない探査はパラドックス的に見えるが、環境力学はしばしば宇宙で均一である。
本手法をシミュレーション環境で評価し,目標空間のかなりのカバレッジを提供するだけでなく,ミスの発生を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2025-02-19T15:11:51Z) - Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration [44.601019677298005]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文 参考訳(メタデータ) (2025-02-12T12:51:36Z) - Hyper: Hyperparameter Robust Efficient Exploration in Reinforcement Learning [48.81121647322492]
textbfHyperは関数近似設定下では有効に有効であり、様々な環境でその魅力的な性能と堅牢性を実証的に示す。
textbfHyperは、探索の訪問を効果的に調整し、安定したトレーニングを確保するためにエクスプロイトを分離することで、問題を広範囲に緩和する。
論文 参考訳(メタデータ) (2024-12-04T23:12:41Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - An Evaluation Study of Intrinsic Motivation Techniques applied to
Reinforcement Learning over Hard Exploration Environments [7.489793155793319]
余分な報酬を伴う環境上で構成された強化学習タスクは特に顕著である。
内在的モチベーションのメカニズムは、これまでで最も研究されてきた選択肢の1つである。
この研究の目的は、硬い探査環境に対する強化学習において、この重要な事項を強調することである。
論文 参考訳(メタデータ) (2022-05-23T10:36:05Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。