Fugu-MT 論文翻訳(概要): Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning

論文の概要: Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.16195v2
Date: Mon, 21 Oct 2024 16:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.795903
Title: Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning
Title（参考訳）: Adaptive $Q$-Network: 深層強化学習のためのオンザフライターゲット選択
Authors: Théo Vincent, Fabian Wahren, Jan Peters, Boris Belousov, Carlo D'Eramo,
Abstract要約: 我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
参考スコア（独自算出の注目度）: 18.579378919155864
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep Reinforcement Learning (RL) is well known for being highly sensitive to hyperparameters, requiring practitioners substantial efforts to optimize them for the problem at hand. This also limits the applicability of RL in real-world scenarios. In recent years, the field of automated Reinforcement Learning (AutoRL) has grown in popularity by trying to address this issue. However, these approaches typically hinge on additional samples to select well-performing hyperparameters, hindering sample-efficiency and practicality. Furthermore, most AutoRL methods are heavily based on already existing AutoML methods, which were originally developed neglecting the additional challenges inherent to RL due to its non-stationarities. In this work, we propose a new approach for AutoRL, called Adaptive $Q$-Network (AdaQN), that is tailored to RL to take into account the non-stationarity of the optimization procedure without requiring additional samples. AdaQN learns several $Q$-functions, each one trained with different hyperparameters, which are updated online using the $Q$-function with the smallest approximation error as a shared target. Our selection scheme simultaneously handles different hyperparameters while coping with the non-stationarity induced by the RL optimization procedure and being orthogonal to any critic-based RL algorithm. We demonstrate that AdaQN is theoretically sound and empirically validate it in MuJoCo control problems and Atari $2600$ games, showing benefits in sample-efficiency, overall performance, robustness to stochasticity and training stability.
Abstract（参考訳）: 深層強化学習(Deep Reinforcement Learning, RL)は、ハイパーパラメータに非常に敏感であることで知られており、実践者が手元にある問題に対してそれらを最適化するためにかなりの努力をしなければならない。これにより、現実世界のシナリオにおけるRLの適用性も制限される。近年, 自動強化学習(AutoRL)の分野は, この問題に対処し, 人気が高まっている。しかしながら、これらのアプローチは通常、優れたパフォーマンスのハイパーパラメータを選択するために追加のサンプルをヒンジし、サンプル効率と実用性を阻害する。さらに、ほとんどのAutoRLメソッドは既存のAutoMLメソッドに大きく依存している。本稿では,AdaQN(Adaptive $Q$-Network)と呼ばれるAutoRLの新しい手法を提案する。 AdaQNはいくつかの$Q$関数を学習し、それぞれ異なるハイパーパラメータでトレーニングされ、最小の近似誤差を共有ターゲットとする$Q$関数を使用してオンラインで更新される。我々の選択方式は、RL最適化法によって誘導される非定常性に対処しつつ、異なるハイパーパラメータを同時に処理し、任意の批判に基づくRLアルゴリズムに直交する。 AdaQNは,MuJoCo制御問題とAtari2600ドルのゲームにおいて,理論的に健全かつ実証的に検証可能であることを実証し,サンプル効率,全体的な性能,確率性に対する堅牢性,トレーニング安定性のメリットを示した。

関連論文リスト

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。 JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。 WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文参考訳（メタデータ） (2026-01-26T14:16:51Z)
Hybrid Learning and Optimization methods for solving Capacitated Vehicle Routing Problem [3.652509571098291]
CVRP(Capacitated Vehicle Routing Problem)は、ロジスティクスにおける基本的なNPハード問題である。本稿では,古典的(RL-C-ALM)と量子拡張的(RL-Q-ALM)の両方のALMソルバ内でのペナルティパラメータの選択を自動化するために,深層強化学習(RL)を統合したハイブリッド最適化手法を提案する。
論文参考訳（メタデータ） (2025-09-18T08:38:29Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである様々なHPOアプローチの比較が可能であり、高い効率で評価できる。 ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文参考訳（メタデータ） (2024-09-27T15:22:28Z)
Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文参考訳（メタデータ） (2024-07-26T17:55:23Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文参考訳（メタデータ） (2023-04-05T12:14:41Z)
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。 Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文参考訳（メタデータ） (2022-09-19T14:09:07Z)
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文参考訳（メタデータ） (2022-01-11T12:41:43Z)
Tuning Mixed Input Hyperparameters on the Fly for Efficient Population Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文参考訳（メタデータ） (2021-06-30T08:15:59Z)
Online Sub-Sampling for Reinforcement Learning with General Function Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文参考訳（メタデータ） (2021-06-14T07:36:25Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文参考訳（メタデータ） (2020-09-03T10:04:06Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。