論文の概要: NFQ2.0: The CartPole Benchmark Revisited
- arxiv url: http://arxiv.org/abs/2511.12644v1
- Date: Sun, 16 Nov 2025 15:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.423441
- Title: NFQ2.0: The CartPole Benchmark Revisited
- Title(参考訳): NFQ2.0: CartPoleベンチマークが改訂
- Authors: Sascha Lange, Roland Hafner, Martin Riedmiller,
- Abstract要約: 従来のCartPoleベンチマークで,20年前のニューラルフィッティングQ-iteration(NFQ)アルゴリズムを再検討した。
標準化されたNFQ2.0を提案し,それをCartPoleタスクに適用し,標準的な産業コンポーネントをベースとした実世界のシステム構築に集中する。
- 参考スコア(独自算出の注目度): 0.9031278060513763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article revisits the 20-year-old neural fitted Q-iteration (NFQ) algorithm on its classical CartPole benchmark. NFQ was a pioneering approach towards modern Deep Reinforcement Learning (Deep RL) in applying multi-layer neural networks to reinforcement learning for real-world control problems. We explore the algorithm's conceptual simplicity and its transition from online to batch learning, which contributed to its stability. Despite its initial success, NFQ required extensive tuning and was not easily reproducible on real-world control problems. We propose a modernized variant NFQ2.0 and apply it to the CartPole task, concentrating on a real-world system build from standard industrial components, to investigate and improve the learning process's repeatability and robustness. Through ablation studies, we highlight key design decisions and hyperparameters that enhance performance and stability of NFQ2.0 over the original variant. Finally, we demonstrate how our findings can assist practitioners in reproducing and improving results and applying deep reinforcement learning more effectively in industrial contexts.
- Abstract(参考訳): この記事では、従来のCartPoleベンチマークで、20年前のニューラルフィッティングQ-iteration(NFQ)アルゴリズムを再検討する。
NFQは、現実世界の制御問題に対する強化学習に多層ニューラルネットワークを適用するという、現代のDeep Reinforcement Learning(Deep RL)への先駆的なアプローチである。
我々は,アルゴリズムの概念的単純さとオンラインからバッチ学習への移行について検討し,その安定性に寄与した。
最初の成功にもかかわらず、NFQは広範囲なチューニングを必要とし、現実世界の制御問題では容易に再現できなかった。
本稿では,標準的な産業コンポーネントから構築された実世界のシステムに集中して,学習プロセスの再現性と堅牢性について検討し,その改善を図るため,近代化されたNFQ2.0を提案し,CartPoleタスクに適用する。
アブレーション研究を通じて、NFQ2.0の性能と安定性を高める重要な設計決定とハイパーパラメータを強調した。
最後に,本研究の成果は,実践者が成果を再現し,改善し,産業的文脈においてより効果的に深層強化学習を適用する上で有効であることを示す。
関連論文リスト
- Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Challenges for Reinforcement Learning in Quantum Circuit Design [8.894627352356302]
ハイブリッド量子機械学習(QML)は、機械学習(ML)を改善するためのQCの応用と、QCアーキテクチャを改善するためのMLの両方を含む。
我々はマルコフ決定過程として定式化された具体的なフレームワークであるqcd-gymを提案し、連続パラメータ化された量子ゲートの普遍的なセットを制御することができる学習ポリシーを実現する。
論文 参考訳(メタデータ) (2023-12-18T16:41:30Z) - Deep-Q Learning with Hybrid Quantum Neural Network on Solving Maze
Problems [1.4801853435122907]
本研究は,ゲートベース量子コンピューティングモデル上でのトレーニング可能な変分量子回路(VQC)を用いて,モデルフリー強化学習問題における量子利得の可能性について検討する。
我々は、最新のQiskitとPyTorchフレームワークに基づいて、新しいハイブリッド量子ニューラルネットワークを設計、訓練した。
我々の研究は、迷路の問題を解決するための深層量子学習の可能性や、他の強化学習の問題に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-04-20T08:32:58Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Human-Level Control through Directly-Trained Deep Spiking Q-Networks [16.268397551693862]
スパイキングニューラルネットワーク(SNN)は、その高エネルギー効率のため、ニューロモルフィックなハードウェアに大きな可能性を秘めている。
本稿では,Leakyインテグレート・アンド・ファイアニューロンとDeep Q-Networkに基づいて,直接学習した深部スパイキング強化学習アーキテクチャを提案する。
我々の研究は、直接学習されたSNNを用いて、複数のAtariゲームで最先端のパフォーマンスを達成する最初のものである。
論文 参考訳(メタデータ) (2021-12-13T09:46:17Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。