Fugu-MT 論文翻訳(概要): Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

論文の概要: Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

arxiv url: http://arxiv.org/abs/2605.05812v2
Date: Mon, 11 May 2026 14:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 19:24:01.326141
Title: Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities
Title（参考訳）: 長期Q-Learning:nステップの不等式による正確な価値学習
Authors: Armaan A. Abraham, Lucy Xiaoyang Shi, Chelsea Finn,
Abstract要約: 本稿では,最適作用値関数を学習する際の合成誤差に対する基本的バックストップを提案する。 Long-Horizon Q-learning (LQL)は、事前の最適性強化観測に基づいて構築される。 LQLは、同じランタイムで1ステップのTDとnステップのTD学習を一貫して上回る。
参考スコア（独自算出の注目度）: 46.51268762094611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Off-policy, value-based reinforcement learning methods such as Q-learning are appealing because they can learn from arbitrary experience, including data collected by older policies or other agents. In practice, however, bootstrapping makes long-horizon learning brittle: estimation errors at later states propagate backward through temporal-difference (TD) updates and can compound over time. We propose long-horizon Q-learning (LQL), which introduces a principled backstop against compounding error when learning the optimal action-value function. LQL builds on a prior optimality tightening observation: any realized action sequence lower-bounds what the optimal policy can achieve in expectation, so acting optimally earlier should not be worse than following the observed actions for several steps before switching to optimal behavior. Our contribution is to turn this inequality into a practical stabilization mechanism for Q-learning by using a hinge loss to penalize violations of these bounds. Importantly, LQL computes these penalties using network outputs already produced for the TD error, requiring no auxiliary networks and no additional forward passes relative to Q-learning. When combined with multiple state-of-the-art methods on a range of online and offline-to-online benchmarks, LQL consistently outperforms both 1-step TD and n-step TD learning at similar runtime.
Abstract（参考訳）: 政治以外のQラーニングのような価値に基づく強化学習手法は、古いポリシーやその他のエージェントが収集したデータを含む、任意の経験から学ぶことができるため、魅力的である。後続状態における推定誤差は、時間差(TD)更新を通じて後方に伝播し、時間とともに複雑化する。動作値関数を最適に学習する際の複合的誤りに対する原則的バックストップを導入する長軸Q-ラーニング(LQL)を提案する。 LQLは、事前の最適性強化観測に基づいて構築されている: 実現されたアクションシーケンスは、期待において最適なポリシーが達成できることを低いバウンドで達成する。我々の貢献は、この不等式をヒンジロスを用いてこれらの境界の違反を罰し、Q-ラーニングの実践的な安定化メカニズムに変えることである。重要なことは、LQLはTDエラーのために既に生成されたネットワーク出力を使用してこれらの罰則を計算し、補助的なネットワークは必要とせず、Qラーニングに対する追加のフォワードパスも不要である。オンラインおよびオフラインのオンラインベンチマークで複数の最先端のメソッドを組み合わせると、LQLは1ステップのTDとnステップのTD学習の両方で、同じランタイムで一貫してパフォーマンスが向上する。

関連論文リスト

Chunk-Guided Q-Learning [9.48300389412777]
Chunk-Guided Q-Learning (CGQ)は、時間的に拡張されたバックアップを使用してトレーニングされたチャンクベースの批評家に向けて、きめ細かい単一ステップの批判をガイドする。 CGQは単段階もしくはアクションチャンクによるTD学習よりも、より厳密な批判的最適性が得られることを示す。 CGQは、長時間のOGBenchタスクに挑戦する上で高いパフォーマンスを達成し、シングルステップとアクションチャンクの両方の手法より優れていることが多い。
論文参考訳（メタデータ） (2026-03-14T14:54:02Z)
Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。 QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2026-01-20T18:45:34Z)
Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。 TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文参考訳（メタデータ） (2024-11-21T11:03:07Z)
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-08T09:17:16Z)
Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。 UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文参考訳（メタデータ） (2021-10-28T00:07:19Z)
Lookahead-Bounded Q-Learning [8.738692817482526]
本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
論文参考訳（メタデータ） (2020-06-28T19:50:55Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。