論文の概要: Q-FOX Learning: Breaking Tradition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16562v2
- Date: Fri, 29 Mar 2024 18:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:04:28.405411
- Title: Q-FOX Learning: Breaking Tradition in Reinforcement Learning
- Title(参考訳): Q-FOX学習:強化学習の伝統を破る
- Authors: Mahmood A. Jumaah, Yossra H. Ali, Tarik A. Rashid,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。
本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。
Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。
- 参考スコア(独自算出の注目度): 4.395397502990339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a subset of artificial intelligence (AI) where agents learn the best action by interacting with the environment, making it suitable for tasks that do not require labeled data or direct supervision. Hyperparameters (HP) tuning refers to choosing the best parameter that leads to optimal solutions in RL algorithms. Manual or random tuning of the HP may be a crucial process because variations in this parameter lead to changes in the overall learning aspects and different rewards. In this paper, a novel and automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX optimizer, a new optimization method inspired by nature that mimics red foxes' hunting behavior, and the commonly used, easy-to-implement RL Q-learning algorithm to solve the problem of HP tuning. Moreover, a new objective function is proposed which prioritizes the reward over the mean squared error (MSE) and learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly selected HP. The cumulative reward for the Cart Pole task was 32.08, and for the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has limitations. It cannot be used directly in real-word problems before choosing the HP in a simulation environment because its processes work iteratively, making it time-consuming. The results indicate that Q-FOX has played an essential role in HP tuning for RL algorithms to effectively solve different control tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。
ハイパーパラメータ(HP)チューニングは、RLアルゴリズムの最適解につながる最適なパラメータを選択することを指す。
HPのマニュアルやランダムなチューニングは、このパラメータのバリエーションが全体的な学習の側面や報酬の変化をもたらすため、重要なプロセスである可能性がある。
本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。
これは、自然にインスパイアされた新しい最適化手法であるFOXオプティマイザと、HPチューニングの問題を解決するためによく使われるRL Q-learningアルゴリズムを使用する。
さらに、平均二乗誤差(MSE)と学習時間(ステップ)よりも報酬を優先する新たな目的関数を提案する。
Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。
PSO, GA, Bee, ランダムに選択されたHPなど、他のオプティマイザとのチューニングよりも累積的な報酬が明らかにされた。
カート・ポール・タスクの累積報酬は32.08であり、凍結湖・タスクの報酬は0.95だった。
Q-FOXの堅牢性にもかかわらず、制限がある。
シミュレーション環境でHPを選択する前に、実際の単語で直接使用することはできない。
その結果,Q-FOXはRLアルゴリズムのHPチューニングにおいて重要な役割を担い,異なる制御タスクを効果的に解くことができた。
関連論文リスト
- Learning to learn with an evolutionary strategy applied to variational
quantum algorithms [0.0]
変分量子アルゴリズム(VQA)は、コスト関数を最小化するために古典的手法を用いて最適化された$U$でパラメータ化された量子回路を用いる。
本稿では,LLES(Learning to Learn with an Evolutionary Strategy')という新しい最適化手法を紹介する。
LLESは最適化を学習問題として扱い、繰り返しニューラルネットワークを用いてVQAパラメータを反復的に提案する。
論文 参考訳(メタデータ) (2023-10-26T13:55:01Z) - CLR: Channel-wise Lightweight Reprogramming for Continual Learning [63.94773340278971]
継続的な学習は、逐次的なタスクを通じて継続的に知識を蓄積する人間の能力をエミュレートすることを目的としている。
主な課題は、新しいタスクを学習した後、以前に学習したタスクのパフォーマンスを維持することである。
本稿では、畳み込みニューラルネットワークが破滅的な忘れを克服するのに役立つチャネルワイドなライトウェイト・リプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:56:21Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文 参考訳(メタデータ) (2022-06-13T22:15:21Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。
本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。
提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。
これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文 参考訳(メタデータ) (2021-10-25T18:11:49Z) - Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文 参考訳(メタデータ) (2021-02-25T12:26:52Z) - Reinforcement Learning Enhanced Quantum-inspired Algorithm for
Combinatorial Optimization [0.0]
我々は、Isingエネルギー最小化問題を解くために、量子インスパイアされたアルゴリズムと共に強化学習エージェントを使用する。
本稿では,自己演奏訓練の安定したシングルプレイヤー版を実現するためのR3手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T20:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。