Fugu-MT 論文翻訳(概要): Q-FOX Learning: Breaking Tradition in Reinforcement Learning

論文の概要: Q-FOX Learning: Breaking Tradition in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.16562v2
Date: Fri, 29 Mar 2024 18:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:04:28.405411
Title: Q-FOX Learning: Breaking Tradition in Reinforcement Learning
Title（参考訳）: Q-FOX学習:強化学習の伝統を破る
Authors: Mahmood A. Jumaah, Yossra H. Ali, Tarik A. Rashid,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。 Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。
参考スコア（独自算出の注目度）: 4.395397502990339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is a subset of artificial intelligence (AI) where agents learn the best action by interacting with the environment, making it suitable for tasks that do not require labeled data or direct supervision. Hyperparameters (HP) tuning refers to choosing the best parameter that leads to optimal solutions in RL algorithms. Manual or random tuning of the HP may be a crucial process because variations in this parameter lead to changes in the overall learning aspects and different rewards. In this paper, a novel and automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX optimizer, a new optimization method inspired by nature that mimics red foxes' hunting behavior, and the commonly used, easy-to-implement RL Q-learning algorithm to solve the problem of HP tuning. Moreover, a new objective function is proposed which prioritizes the reward over the mean squared error (MSE) and learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly selected HP. The cumulative reward for the Cart Pole task was 32.08, and for the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has limitations. It cannot be used directly in real-word problems before choosing the HP in a simulation environment because its processes work iteratively, making it time-consuming. The results indicate that Q-FOX has played an essential role in HP tuning for RL algorithms to effectively solve different control tasks.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、人工知能(AI)のサブセットであり、エージェントは環境と対話することで最良の行動を学ぶ。ハイパーパラメータ(HP)チューニングは、RLアルゴリズムの最適解につながる最適なパラメータを選択することを指す。 HPのマニュアルやランダムなチューニングは、このパラメータのバリエーションが全体的な学習の側面や報酬の変化をもたらすため、重要なプロセスである可能性がある。本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。これは、自然にインスパイアされた新しい最適化手法であるFOXオプティマイザと、HPチューニングの問題を解決するためによく使われるRL Q-learningアルゴリズムを使用する。さらに、平均二乗誤差(MSE)と学習時間(ステップ)よりも報酬を優先する新たな目的関数を提案する。 Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。 PSO, GA, Bee, ランダムに選択されたHPなど、他のオプティマイザとのチューニングよりも累積的な報酬が明らかにされた。カート・ポール・タスクの累積報酬は32.08であり、凍結湖・タスクの報酬は0.95だった。 Q-FOXの堅牢性にもかかわらず、制限がある。シミュレーション環境でHPを選択する前に、実際の単語で直接使用することはできない。その結果,Q-FOXはRLアルゴリズムのHPチューニングにおいて重要な役割を担い,異なる制御タスクを効果的に解くことができた。

関連論文リスト

How far away are truly hyperparameter-free learning algorithms? [21.3925393750153]
我々は,ハイパーパラメータフリー手法の構成要素として,学習速度フリー手法の可能性を評価する。文献提供のデフォルト設定がベンチマークでは不十分であることが分かりました。最高のAlgoPerf校正学習レートフリーメソッドは、パフォーマンスが大幅に向上したが、ベンチマークスコア全体でも同様の校正ベースラインにわずかに遅れを取っていた。
論文参考訳（メタデータ） (2025-05-29T20:57:31Z)
AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.05410015124021]
本稿では,SGD法であるAutoSGDを紹介する。実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文参考訳（メタデータ） (2025-05-27T18:25:21Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文参考訳（メタデータ） (2024-05-25T11:57:43Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Learning to learn with an evolutionary strategy applied to variational quantum algorithms [0.0]
変分量子アルゴリズム(VQA)は、コスト関数を最小化するために古典的手法を用いて最適化されたパラメータ化量子回路を用いる。 LLES(Learning to Learn with an Evolutionary Strategy)という新しい最適化手法を導入する。 LLESは最適化を学習問題として扱い、繰り返しニューラルネットワークを用いてVQAパラメータを反復的に提案する。
論文参考訳（メタデータ） (2023-10-26T13:55:01Z)
Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文参考訳（メタデータ） (2023-05-31T19:32:43Z)
Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。 CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文参考訳（メタデータ） (2023-01-11T17:58:51Z)
Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文参考訳（メタデータ） (2022-11-14T12:32:18Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Hyperparameter Sensitivity in Deep Outlier Detection: Analysis and a Scalable Hyper-Ensemble Solution [21.130842136324528]
我々は,Deep OD法のHP感度に関する最初の大規模解析を行った。我々は,HP 構成の異なるモデルを組み立てる ROBOD と呼ばれる HP-robust でスケーラブルな深層アンサンブルモデルを設計する。
論文参考訳（メタデータ） (2022-06-15T16:46:00Z)
Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文参考訳（メタデータ） (2021-10-25T18:11:49Z)
Optimization-Based GenQSGD for Federated Edge Learning [12.371264770814097]
我々は、連合学習(FL)のための一般化された並列最小バッチ収束降下(SGD)アルゴリズムを提案する。我々は,時間収束誤差の下でのエネルギーコストを最小限に抑えるために,アルゴリズムパラメータを最適化する。その結果,既存のFLアルゴリズムよりも有意な利得が得られた。
論文参考訳（メタデータ） (2021-10-25T14:25:11Z)
Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文参考訳（メタデータ） (2021-02-25T12:26:52Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文参考訳（メタデータ） (2021-01-17T04:55:30Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文参考訳（メタデータ） (2020-10-31T08:05:34Z)
Hyperparameter Transfer Across Developer Adjustments [34.69121532129445]
我々は,HT-AA(Hyper parameter transfer across adjusts)という新しい研究フレームワークを提案する。最も優れたベースラインは、平均して古いHPOと新しいHPOの予算に依存し、転送不要の著名なHPOアルゴリズムよりも1.2--2.6倍高速である。 HPOはML開発において重要なステップであるが、広範な計算資源を必要とするため、このスピードアップは開発サイクルの高速化、コストの低減、環境への影響の低減につながる。
論文参考訳（メタデータ） (2020-10-25T13:35:37Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)
Practical and sample efficient zero-shot HPO [8.41866793161234]
利用可能なアプローチの概要と、この問題に対処する2つの新しいテクニックを紹介します。 1つは、サロゲートモデルに基づいて、クエリのためのデータセットと設定のペアを適応的に選択する。 2つ目は、サロゲートモデルの検出、チューニング、テストが問題となる設定のためのもので、HyperBandとサブモジュラー最適化を組み合わせた多要素技術である。
論文参考訳（メタデータ） (2020-07-27T08:56:55Z)
Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization [0.0]
我々は、Isingエネルギー最小化問題を解くために、量子インスパイアされたアルゴリズムと共に強化学習エージェントを使用する。本稿では,自己演奏訓練の安定したシングルプレイヤー版を実現するためのR3手法を提案する。
論文参考訳（メタデータ） (2020-02-11T20:55:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。