論文の概要: Hyper: Hyperparameter Robust Efficient Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.03767v1
- Date: Wed, 04 Dec 2024 23:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:30.509168
- Title: Hyper: Hyperparameter Robust Efficient Exploration in Reinforcement Learning
- Title(参考訳): 強化学習における高パラメータロバスト探索
- Authors: Yiran Wang, Chenshu Liu, Yunfan Li, Sanae Amani, Bolei Zhou, Lin F. Yang,
- Abstract要約: textbfHyperは関数近似設定下では有効に有効であり、様々な環境でその魅力的な性能と堅牢性を実証的に示す。
textbfHyperは、探索の訪問を効果的に調整し、安定したトレーニングを確保するためにエクスプロイトを分離することで、問題を広範囲に緩和する。
- 参考スコア(独自算出の注目度): 48.81121647322492
- License:
- Abstract: The exploration \& exploitation dilemma poses significant challenges in reinforcement learning (RL). Recently, curiosity-based exploration methods achieved great success in tackling hard-exploration problems. However, they necessitate extensive hyperparameter tuning on different environments, which heavily limits the applicability and accessibility of this line of methods. In this paper, we characterize this problem via analysis of the agent behavior, concluding the fundamental difficulty of choosing a proper hyperparameter. We then identify the difficulty and the instability of the optimization when the agent learns with curiosity. We propose our method, hyperparameter robust exploration (\textbf{Hyper}), which extensively mitigates the problem by effectively regularizing the visitation of the exploration and decoupling the exploitation to ensure stable training. We theoretically justify that \textbf{Hyper} is provably efficient under function approximation setting and empirically demonstrate its appealing performance and robustness in various environments.
- Abstract(参考訳): 探索と搾取のジレンマは強化学習(RL)において大きな課題となる。
近年、好奇心に基づく探索手法は、ハード探索問題に対処する上で大きな成功を収めている。
しかし、異なる環境において広範なハイパーパラメータチューニングを必要とするため、この手法の適用性とアクセシビリティを著しく制限する。
本稿では,適切なハイパーパラメータを選択することの根本的な難しさを結論として,エージェントの挙動の分析を通じてこの問題を特徴づける。
次に、エージェントが好奇心で学習する際の、最適化の難しさと不安定さを特定する。
提案手法は,探索の来訪を効果的に調整し,安定した訓練を確実にするためのエクスプロイトを分離することにより,問題を広範囲に緩和する。
理論的には, 関数近似条件下では, \textbf{Hyper} が有効に有効であり, 様々な環境において, その魅力と頑健さを実証的に示す。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Adaptive Hyperparameter Optimization for Continual Learning Scenarios [19.151871846937738]
本稿では,連続学習におけるハイパーパラメータ選択の役割について検討する。
分散に基づく手法の機能解析を用いて、性能に影響を及ぼす最も重要なハイパーパラメータを同定する。
提案手法は,連続的なシナリオや戦略に依存しない手法で,タスク間のハイパーパラメータ最適化を継続的に高速化し,逐次的なタスク順序に直面する場合においても堅牢性を示すことを実証的に実証する。
論文 参考訳(メタデータ) (2024-03-09T16:47:42Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Hyperparameter Optimization for Multi-Objective Reinforcement Learning [0.27309692684728615]
強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。
近年,多目的強化学習(MORL)の導入により,RLの範囲が拡大した。
実際には、このタスクは難しいことがしばしば証明され、これらのテクニックのデプロイが失敗に終わる。
論文 参考訳(メタデータ) (2023-10-25T09:17:25Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Goal-Oriented Sensitivity Analysis of Hyperparameters in Deep Learning [0.0]
Hilbert-Schmidt Independence Criterion (HSIC) に基づく目標指向感度分析のハイパーパラメータ解析および最適化への応用について検討した。
MNISTやCifar、古典的な機械学習データセットに応用したHSICに基づく最適化アルゴリズムを導出し、科学的な機械学習に関心を持つ。
論文 参考訳(メタデータ) (2022-07-13T14:21:12Z) - Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:42:22Z) - Learning Adaptive Loss for Robust Learning with Noisy Labels [59.06189240645958]
ロバスト損失は、堅牢な学習問題を扱うための重要な戦略である。
本稿では,強靭なハイパーチューニングが可能なメタ学習手法を提案する。
4種類のSOTA損失関数は, 最小化, 一般利用, 有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T00:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。