論文の概要: QF-tuner: Breaking Tradition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16562v3
- Date: Sun, 19 Jan 2025 23:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:49.597069
- Title: QF-tuner: Breaking Tradition in Reinforcement Learning
- Title(参考訳): QF-tuner:強化学習の伝統を破る
- Authors: Mahmood A. Jumaah, Yossra H. Ali, Tarik A. Rashid,
- Abstract要約: FOX最適化アルゴリズム (FOX) を用いたQ-ラーニングアルゴリズムにおいて, パラメータ自動チューニングのための新しいQF-tunerを提案する。
学習誤差や時間よりも報酬を優先する新たな目的関数が提案されている。
提案手法はOpenAI GymのCartPoleとFrozenLakeの2つの制御タスクを用いて評価されている。
- 参考スコア(独自算出の注目度): 4.395397502990339
- License:
- Abstract: Hyperparameter tuning in reinforcement learning algorithms refers to choosing the optimal parameters that may increase the algorithm's performance. Manual or random hyperparameter tuning methods can be problematic, as even slight variations in their values can result in significantly different outcomes in the learning process. In this paper, we propose a new method, QF-tuner, for automatic hyperparameter tuning in the Q-learning algorithm using the FOX optimization algorithm (FOX). A new objective function has been proposed for the FOX, prioritizing reward over learning error and time. QF-tuner starts by running the FOX and tries to minimize the fitness value derived from observations at each iteration by executing the Q-learning algorithm. The proposed method has been evaluated using two control tasks from the OpenAI Gym: CartPole and FrozenLake. The empirical results of the QF-tuner on the CartPole control task show a reward of 499, and on the FrozenLake control task, a reward of 1. These results indicate that the QF-tuner outperforms other optimization algorithms. On the FrozenLake control task, there was a 36\% increase in reward with a 26\% reduction in learning time; on the CartPole control task, there was a 57\% increase in reward with a 20\% decrease in learning time. Thus, the QF-tuner is an essential method for hyperparameter tuning in reinforcement learning algorithms, enabling more effective solutions to control task problems.
- Abstract(参考訳): 強化学習アルゴリズムにおけるハイパーパラメータチューニングは、アルゴリズムの性能を高めるための最適なパラメータを選択することを指す。
手動もしくはランダムなハイパーパラメータチューニング手法は、その値のわずかな変化でさえ、学習過程において著しく異なる結果をもたらす可能性があるため、問題となることがある。
本稿では,FOX最適化アルゴリズム(FOX)を用いたQ-ラーニングアルゴリズムにおいて,自動ハイパーパラメータチューニングのための新しいQF-tunerを提案する。
学習誤差や時間よりも報酬を優先する新たな目的関数が提案されている。
QF-tunerは、まずFOXを実行し、Q-learningアルゴリズムを実行することで、各イテレーションでの観察から導かれる適合値を最小化しようとする。
提案手法はOpenAI GymのCartPoleとFrozenLakeの2つの制御タスクを用いて評価されている。
CartPole コントロールタスクにおける QF-tuner の実証結果は,499 の報酬を示し,FrozenLake コントロールタスクでは1。
これらの結果は、QF-tunerが他の最適化アルゴリズムより優れていることを示している。
また,FrozenLakeコントロールタスクでは,26倍の学習時間で報酬が36倍,CartPoleコントロールタスクでは57倍の報酬が,20倍の学習時間で報酬が57倍に増加した。
したがって、QF-tunerは強化学習アルゴリズムにおけるハイパーパラメータチューニングに不可欠な手法であり、タスク問題をより効果的に制御できる。
関連論文リスト
- Learning to learn with an evolutionary strategy applied to variational
quantum algorithms [0.0]
変分量子アルゴリズム(VQA)は、コスト関数を最小化するために古典的手法を用いて最適化された$U$でパラメータ化された量子回路を用いる。
本稿では,LLES(Learning to Learn with an Evolutionary Strategy')という新しい最適化手法を紹介する。
LLESは最適化を学習問題として扱い、繰り返しニューラルネットワークを用いてVQAパラメータを反復的に提案する。
論文 参考訳(メタデータ) (2023-10-26T13:55:01Z) - CLR: Channel-wise Lightweight Reprogramming for Continual Learning [63.94773340278971]
継続的な学習は、逐次的なタスクを通じて継続的に知識を蓄積する人間の能力をエミュレートすることを目的としている。
主な課題は、新しいタスクを学習した後、以前に学習したタスクのパフォーマンスを維持することである。
本稿では、畳み込みニューラルネットワークが破滅的な忘れを克服するのに役立つチャネルワイドなライトウェイト・リプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:56:21Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文 参考訳(メタデータ) (2022-06-13T22:15:21Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。
本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。
提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。
これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文 参考訳(メタデータ) (2021-10-25T18:11:49Z) - Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文 参考訳(メタデータ) (2021-02-25T12:26:52Z) - Reinforcement Learning Enhanced Quantum-inspired Algorithm for
Combinatorial Optimization [0.0]
我々は、Isingエネルギー最小化問題を解くために、量子インスパイアされたアルゴリズムと共に強化学習エージェントを使用する。
本稿では,自己演奏訓練の安定したシングルプレイヤー版を実現するためのR3手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T20:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。