論文の概要: Q-FOX Learning: Breaking Tradition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16562v1
- Date: Mon, 26 Feb 2024 13:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:37:53.935675
- Title: Q-FOX Learning: Breaking Tradition in Reinforcement Learning
- Title(参考訳): Q-FOX学習:強化学習の伝統を破る
- Authors: Mahmood Alqaseer, Yossra H. Ali and Tarik A. Rashid
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。
本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。
Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。
- 参考スコア(独自算出の注目度): 4.939986309170004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a subset of artificial intelligence (AI) where
agents learn the best action by interacting with the environment, making it
suitable for tasks that do not require labeled data or direct supervision.
Hyperparameters (HP) tuning refers to choosing the best parameter that leads to
optimal solutions in RL algorithms. Manual or random tuning of the HP may be a
crucial process because variations in this parameter lead to changes in the
overall learning aspects and different rewards. In this paper, a novel and
automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX
optimizer, a new optimization method inspired by nature that mimics red foxes'
hunting behavior, and the commonly used, easy-to-implement RL Q-learning
algorithm to solve the problem of HP tuning. Moreover, a new objective function
is proposed which prioritizes the reward over the mean squared error (MSE) and
learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment
control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards
than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly
selected HP. The cumulative reward for the Cart Pole task was 32.08, and for
the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has
limitations. It cannot be used directly in real-word problems before choosing
the HP in a simulation environment because its processes work iteratively,
making it time-consuming. The results indicate that Q-FOX has played an
essential role in HP tuning for RL algorithms to effectively solve different
control tasks.
- Abstract(参考訳): 強化学習(英: reinforcement learning, rl)は、人工知能(ai)のサブセットであり、エージェントが環境と対話することで最善の行動を学習し、ラベル付きデータや直接監督を必要としないタスクに適している。
ハイパーパラメータ(HP)チューニングは、RLアルゴリズムの最適解につながる最適なパラメータを選択することを指す。
hpの手動またはランダムなチューニングは、このパラメータの変化が学習の全体的な側面と報酬の異なる変化につながるため、重要なプロセスである。
本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。
これは、自然にインスパイアされた新しい最適化手法であるFOXオプティマイザと、HPチューニングの問題を解決するためによく使われるRL Q-learningアルゴリズムを使用する。
さらに、平均二乗誤差(MSE)と学習時間(ステップ)よりも報酬を優先する新たな目的関数を提案する。
Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。
PSO, GA, Bee, ランダムに選択されたHPなど、他のオプティマイザとのチューニングよりも累積的な報酬が大きい。
カートポール作業に対する累積報酬は32.08で、凍結湖作業は0.95であった。
Q-FOXの堅牢性にもかかわらず、制限がある。
プロセスが反復的に動作し、時間を要するため、シミュレーション環境でhpを選択する前に、実語問題で直接使用することはできない。
その結果,Q-FOXはRLアルゴリズムのHPチューニングにおいて重要な役割を担い,異なる制御タスクを効果的に解くことができた。
関連論文リスト
- Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Hyperparameter Sensitivity in Deep Outlier Detection: Analysis and a
Scalable Hyper-Ensemble Solution [21.130842136324528]
我々は,Deep OD法のHP感度に関する最初の大規模解析を行った。
我々は,HP 構成の異なるモデルを組み立てる ROBOD と呼ばれる HP-robust でスケーラブルな深層アンサンブルモデルを設計する。
論文 参考訳(メタデータ) (2022-06-15T16:46:00Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Hyperparameter Transfer Across Developer Adjustments [34.69121532129445]
我々は,HT-AA(Hyper parameter transfer across adjusts)という新しい研究フレームワークを提案する。
最も優れたベースラインは、平均して古いHPOと新しいHPOの予算に依存し、転送不要の著名なHPOアルゴリズムよりも1.2--2.6倍高速である。
HPOはML開発において重要なステップであるが、広範な計算資源を必要とするため、このスピードアップは開発サイクルの高速化、コストの低減、環境への影響の低減につながる。
論文 参考訳(メタデータ) (2020-10-25T13:35:37Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - Practical and sample efficient zero-shot HPO [8.41866793161234]
利用可能なアプローチの概要と、この問題に対処する2つの新しいテクニックを紹介します。
1つは、サロゲートモデルに基づいて、クエリのためのデータセットと設定のペアを適応的に選択する。
2つ目は、サロゲートモデルの検出、チューニング、テストが問題となる設定のためのもので、HyperBandとサブモジュラー最適化を組み合わせた多要素技術である。
論文 参考訳(メタデータ) (2020-07-27T08:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。