論文の概要: Chunk-Guided Q-Learning
- arxiv url: http://arxiv.org/abs/2603.13971v1
- Date: Sat, 14 Mar 2026 14:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.51935
- Title: Chunk-Guided Q-Learning
- Title(参考訳): チャンクガイドによるQラーニング
- Authors: Gwanwoo Song, Kwanyoung Park, Youngwoon Lee,
- Abstract要約: Chunk-Guided Q-Learning (CGQ)は、時間的に拡張されたバックアップを使用してトレーニングされたチャンクベースの批評家に向けて、きめ細かい単一ステップの批判をガイドする。
CGQは単段階もしくはアクションチャンクによるTD学習よりも、より厳密な批判的最適性が得られることを示す。
CGQは、長時間のOGBenchタスクに挑戦する上で高いパフォーマンスを達成し、シングルステップとアクションチャンクの両方の手法より優れていることが多い。
- 参考スコア(独自算出の注目度): 9.48300389412777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In offline reinforcement learning (RL), single-step temporal-difference (TD) learning can suffer from bootstrapping error accumulation over long horizons. Action-chunked TD methods mitigate this by backing up over multiple steps, but can introduce suboptimality by restricting the policy class to open-loop action sequences. To resolve this trade-off, we present Chunk-Guided Q-Learning (CGQ), a single-step TD algorithm that guides a fine-grained single-step critic by regularizing it toward a chunk-based critic trained using temporally extended backups. This reduces compounding error while preserving fine-grained value propagation. We theoretically show that CGQ attains tighter critic optimality bounds than either single-step or action-chunked TD learning alone. Empirically, CGQ achieves strong performance on challenging long-horizon OGBench tasks, often outperforming both single-step and action-chunked methods.
- Abstract(参考訳): オフライン強化学習(RL)では、単一ステップ時差学習(TD)は長い地平線上でのブートストラップエラーの蓄積に悩まされる。
アクションチャンクされたTDメソッドは、複数のステップをバックアップすることでこれを緩和するが、ポリシークラスをオープンループアクションシーケンスに制限することで、亜最適性を導入することができる。
このトレードオフを解決するため,一段階のTDアルゴリズムであるChunk-Guided Q-Learning(CGQ)を提案する。
これにより、微細な値の伝搬を保ちながら複合エラーを低減する。
理論的には、CGQはシングルステップまたはアクションチャンク付きTD学習単独よりも、より厳密な批判的最適性が得られることを示す。
CGQは、長時間のOGBenchタスクに挑戦する上で高いパフォーマンスを達成し、シングルステップとアクションチャンクの両方の手法より優れていることが多い。
関連論文リスト
- What Does Flow Matching Bring To TD Learning? [28.717975688380488]
強化学習(RL)におけるスカラーQ値関数推定にフローマッチングが有効である
これらの結果から, 分布 RL ではその成功は説明されず, リターン分布を明示的にモデル化することで, 性能が低下することを示した。
我々は,この統合プロセスの各ステップにおける値の読み出しと高密度な速度管理に積分を用いることで,2つのメカニズムによるTD学習が向上すると主張している。
論文 参考訳(メタデータ) (2026-03-04T17:51:30Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Decoupled Q-Chunking [63.864222078287575]
チャンクされた批評家は、個々のアクションではなく、短いアクションシーケンス("チャンク")の価値を見積もって、価値のバックアップをスピードアップします。
私たちの重要な洞察は、批判者のチャンクの長さをポリシーのチャンクの長さから切り離すことで、ポリシーがより短いアクションチャンクを乗り越えることを可能にすることです。
この設計は、オープンループのサブ最適化と長いアクションチャンクに対するアクションチャンクポリシーの学習の難しさを両立させながら、マルチステップ値伝搬の利点を保っている。
論文 参考訳(メタデータ) (2025-12-11T18:52:51Z) - Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。
TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-21T11:03:07Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Efficient Offline Reinforcement Learning: The Critic is Critical [5.916429671763282]
オフ・ポリシー強化学習は、教師付きアプローチを超えてパフォーマンスを改善するための有望なアプローチを提供する。
本稿では、まず行動方針を学習し、教師付き学習で批判し、その後に非政治強化学習で改善することによるベスト・オブ・ボス・アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:16:38Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。