Fugu-MT 論文翻訳(概要): Hyperparameter Tuning for Deep Reinforcement Learning Applications

論文の概要: Hyperparameter Tuning for Deep Reinforcement Learning Applications

arxiv url: http://arxiv.org/abs/2201.11182v1
Date: Wed, 26 Jan 2022 20:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-29 05:04:02.935338
Title: Hyperparameter Tuning for Deep Reinforcement Learning Applications
Title（参考訳）: 深層強化学習のためのハイパーパラメータチューニング
Authors: Mariam Kiran and Melis Ozyildirim
Abstract要約: 本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
参考スコア（独自算出の注目度）: 0.3553493344868413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) applications, where an agent can simply learn optimal behaviors by interacting with the environment, are quickly gaining tremendous success in a wide variety of applications from controlling simple pendulums to complex data centers. However, setting the right hyperparameters can have a huge impact on the deployed solution performance and reliability in the inference models, produced via RL, used for decision-making. Hyperparameter search itself is a laborious process that requires many iterations and computationally expensive to find the best settings that produce the best neural network architectures. In comparison to other neural network architectures, deep RL has not witnessed much hyperparameter tuning, due to its algorithm complexity and simulation platforms needed. In this paper, we propose a distributed variable-length genetic algorithm framework to systematically tune hyperparameters for various RL applications, improving training time and robustness of the architecture, via evolution. We demonstrate the scalability of our approach on many RL problems (from simple gyms to complex applications) and compared with Bayesian approach. Our results show that with more generations, optimal solutions that require fewer training episodes and are computationally cheap while being more robust for deployment. Our results are imperative to advance deep reinforcement learning controllers for real-world problems.
Abstract（参考訳）: 強化学習(rl)アプリケーションは、エージェントが環境と対話することによって最適な振る舞いを学習できるが、単純な振り子から複雑なデータセンターまで、さまざまなアプリケーションで急速に成功している。しかし、適切なハイパーパラメータの設定は、RLによって生成された推論モデルにおいて、デプロイされたソリューションのパフォーマンスと信頼性に大きな影響を与える可能性がある。ハイパーパラメータ検索自体は多くのイテレーションを必要とし、最適なニューラルネットワークアーキテクチャを生み出す最適な設定を見つけるのに計算コストがかかります。他のニューラルネットワークアーキテクチャと比較して、アルゴリズムの複雑さとシミュレーションプラットフォームが必要なため、ディープRLはハイパーパラメータチューニングをあまり見ていない。本稿では,様々なrlアプリケーションに対してハイパーパラメータを体系的にチューニングし,進化を通じてアーキテクチャのトレーニング時間とロバスト性を向上させる分散可変長遺伝的アルゴリズムフレームワークを提案する。単純体育館から複雑な応用まで)多くのRL問題に対するアプローチのスケーラビリティを実証し,ベイズ的アプローチと比較した。以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストが低く, デプロイに堅牢な最適解が得られた。実世界の問題に対する深層強化学習制御の推進に本研究は不可欠である。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文参考訳（メタデータ） (2025-05-22T16:05:02Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文参考訳（メタデータ） (2024-05-25T11:57:43Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文参考訳（メタデータ） (2023-03-09T11:30:40Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文参考訳（メタデータ） (2022-08-09T04:40:11Z)
Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。 PBTスタイルの手法に2つの新しい革新を導入する。これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文参考訳（メタデータ） (2022-07-19T16:57:38Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
On the Importance of Hyperparameter Optimization for Model-based Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。 MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文参考訳（メタデータ） (2021-02-26T18:57:47Z)
Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文参考訳（メタデータ） (2020-09-03T10:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。