論文の概要: Is Q-learning an Ill-posed Problem?
- arxiv url: http://arxiv.org/abs/2502.14365v2
- Date: Fri, 21 Feb 2025 14:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:11.872621
- Title: Is Q-learning an Ill-posed Problem?
- Title(参考訳): Q-learningはIll-posed問題か?
- Authors: Philipp Wissmann, Daniel Hein, Steffen Udluft, Thomas Runkler,
- Abstract要約: 本稿では,連続環境におけるQ-ラーニングの不安定性について検討する。
比較的単純なベンチマークでも、Q-ラーニングの基本課題は本質的に悪用され、失敗しがちであることを示す。
- 参考スコア(独自算出の注目度): 2.4424095531386234
- License:
- Abstract: This paper investigates the instability of Q-learning in continuous environments, a challenge frequently encountered by practitioners. Traditionally, this instability is attributed to bootstrapping and regression model errors. Using a representative reinforcement learning benchmark, we systematically examine the effects of bootstrapping and model inaccuracies by incrementally eliminating these potential error sources. Our findings reveal that even in relatively simple benchmarks, the fundamental task of Q-learning - iteratively learning a Q-function from policy-specific target values - can be inherently ill-posed and prone to failure. These insights cast doubt on the reliability of Q-learning as a universal solution for reinforcement learning problems.
- Abstract(参考訳): 本稿では,実践者が頻繁に遭遇する,継続的環境におけるQ-ラーニングの不安定性について検討する。
伝統的に、この不安定性はブートストラップと回帰モデルエラーに起因する。
代表的強化学習ベンチマークを用いて、これらの潜在的なエラー源を漸進的に除去することにより、ブートストレッピングとモデル不正確性の効果を体系的に検証する。
比較的単純なベンチマークでも、Q-ラーニングの基本的な課題である、政策固有の目標値からQ-関数を反復的に学習することは、本質的に不適切であり、失敗しがちであることがわかった。
これらの知見は、強化学習問題に対する普遍的な解決策としてのQ-ラーニングの信頼性に疑問を投げかけた。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Self-Imitation Learning via Generalized Lower Bound Q-learning [23.65188248947536]
ローバウンドQ-ラーニングによって動機付けられた自己刺激学習は、政治以外の学習に新しく効果的なアプローチである。
元の戻り値に基づく下界Q-ラーニングを一般化するn段下界を提案する。
我々は,n段階の低境界Q-ラーニングが,帰納型自己イメージ学習や非修正n-stepの代替として,より堅牢であることを示す。
論文 参考訳(メタデータ) (2020-06-12T19:52:04Z) - ConQUR: Mitigating Delusional Bias in Deep Q-learning [45.21332566843924]
妄想バイアスは、近似Q-ラーニングにおける基本的なエラー源である。
我々は,根底にある欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することで,妄想バイアスを緩和する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-02-27T19:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。