論文の概要: QF-tuner: Breaking Tradition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16562v4
- Date: Tue, 18 Mar 2025 01:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:49.491459
- Title: QF-tuner: Breaking Tradition in Reinforcement Learning
- Title(参考訳): QF-tuner:強化学習の伝統を破る
- Authors: Mahmood A. Jumaah, Yossra H. Ali, Tarik A. Rashid,
- Abstract要約: 本稿では,Q学習アルゴリズムにおけるパラメータ自動調整のためのQF-tunerという新しい手法を提案する。
提案手法はOpenAI GymのCartPoleとFrozenLakeの2つの制御タスクを用いて評価されている。
QF-tunerは報酬を36%、学習時間を26%、CartPoleタスクでは報酬を57%、学習時間を20%削減した。
- 参考スコア(独自算出の注目度): 4.395397502990339
- License:
- Abstract: In reinforcement learning algorithms, the hyperparameters tuning method refers to choosing the optimal parameters that may increase the overall performance. Manual or random hyperparameter tuning methods can lead to different results in the reinforcement learning algorithms. In this paper, we propose a new method called QF-tuner for automatic hyperparameter tuning in the Q learning algorithm using the FOX optimization algorithm (FOX). Furthermore, a new objective function has been employed within FOX that prioritizes reward over learning error and time. QF tuner starts by running the FOX and tries to minimize the fitness value derived from observations at each iteration by executing the Q-learning algorithm. The proposed method has been evaluated using two control tasks from the OpenAI Gym: CartPole and FrozenLake. The empirical results indicate that the QF-tuner outperforms other optimization algorithms, such as particle swarm optimization (PSO), bees algorithm (BA), genetic algorithms (GA), and the random method. However, on the FrozenLake task, the QF-tuner increased rewards by 36% and reduced learning time by 26%, while on the CartPole task, it increased rewards by 57% and reduced learning time by 20%. Thus, the QF-tuner is an essential method for hyperparameter tuning in Q-learning algorithms, enabling more effective solutions to control task problems.
- Abstract(参考訳): 強化学習アルゴリズムでは、ハイパーパラメータチューニング法は、全体的な性能を高めるための最適なパラメータを選択することを指す。
手動もしくはランダムなハイパーパラメータチューニング手法は、強化学習アルゴリズムにおいて異なる結果をもたらす可能性がある。
本稿では、FOX最適化アルゴリズム(FOX)を用いたQ学習アルゴリズムにおいて、QFチューニングと呼ばれる新しい手法を提案する。
さらに、学習誤差や時間よりも報酬を優先する新たな目的関数がFOX内で採用されている。
QFチューナは、FOXの実行から始まり、Q-ラーニングアルゴリズムを実行することにより、各イテレーションでの観察から導かれる適合値を最小化しようとする。
提案手法はOpenAI GymのCartPoleとFrozenLakeの2つの制御タスクを用いて評価されている。
実験の結果,QF-tunerは粒子群最適化 (PSO) やハチアルゴリズム (BA) ,遺伝的アルゴリズム (GA) ,ランダム手法など,他の最適化アルゴリズムよりも優れていることが示された。
しかし、FrozenLakeタスクでは、QF-tunerは報酬を36%増加し、学習時間を26%減少させ、CartPoleタスクでは報酬を57%増加させ、学習時間を20%削減した。
したがって、QF-tunerはQ-learningアルゴリズムにおけるハイパーパラメータチューニングに不可欠な手法であり、タスク問題をより効果的に制御できる。
関連論文リスト
- Learning to learn with an evolutionary strategy applied to variational
quantum algorithms [0.0]
変分量子アルゴリズム(VQA)は、コスト関数を最小化するために古典的手法を用いて最適化された$U$でパラメータ化された量子回路を用いる。
本稿では,LLES(Learning to Learn with an Evolutionary Strategy')という新しい最適化手法を紹介する。
LLESは最適化を学習問題として扱い、繰り返しニューラルネットワークを用いてVQAパラメータを反復的に提案する。
論文 参考訳(メタデータ) (2023-10-26T13:55:01Z) - CLR: Channel-wise Lightweight Reprogramming for Continual Learning [63.94773340278971]
継続的な学習は、逐次的なタスクを通じて継続的に知識を蓄積する人間の能力をエミュレートすることを目的としている。
主な課題は、新しいタスクを学習した後、以前に学習したタスクのパフォーマンスを維持することである。
本稿では、畳み込みニューラルネットワークが破滅的な忘れを克服するのに役立つチャネルワイドなライトウェイト・リプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:56:21Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文 参考訳(メタデータ) (2022-06-13T22:15:21Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。
本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。
提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。
これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文 参考訳(メタデータ) (2021-10-25T18:11:49Z) - Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文 参考訳(メタデータ) (2021-02-25T12:26:52Z) - Reinforcement Learning Enhanced Quantum-inspired Algorithm for
Combinatorial Optimization [0.0]
我々は、Isingエネルギー最小化問題を解くために、量子インスパイアされたアルゴリズムと共に強化学習エージェントを使用する。
本稿では,自己演奏訓練の安定したシングルプレイヤー版を実現するためのR3手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T20:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。