論文の概要: Q-learning with Adjoint Matching
- arxiv url: http://arxiv.org/abs/2601.14234v1
- Date: Tue, 20 Jan 2026 18:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.455244
- Title: Q-learning with Adjoint Matching
- Title(参考訳): 随伴マッチングを用いたQ-ラーニング
- Authors: Qiyang Li, Sergey Levine,
- Abstract要約: 本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 58.78551025170267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Q-learning with Adjoint Matching (QAM), a novel TD-based reinforcement learning (RL) algorithm that tackles a long-standing challenge in continuous-action RL: efficient optimization of an expressive diffusion or flow-matching policy with respect to a parameterized Q-function. Effective optimization requires exploiting the first-order information of the critic, but it is challenging to do so for flow or diffusion policies because direct gradient-based optimization via backpropagation through their multi-step denoising process is numerically unstable. Existing methods work around this either by only using the value and discarding the gradient information, or by relying on approximations that sacrifice policy expressivity or bias the learned policy. QAM sidesteps both of these challenges by leveraging adjoint matching, a recently proposed technique in generative modeling, which transforms the critic's action gradient to form a step-wise objective function that is free from unstable backpropagation, while providing an unbiased, expressive policy at the optimum. Combined with temporal-difference backup for critic learning, QAM consistently outperforms prior approaches on hard, sparse reward tasks in both offline and offline-to-online RL.
- Abstract(参考訳): 本稿では,連続動作RLにおける長年の課題に対処する,新しいTDベースの強化学習(RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQラーニングを提案する。
効率的な最適化には批判者の一階情報を利用する必要があるが、多段階の復調プロセスによるバックプロパゲーションによる直接勾配に基づく最適化は数値的に不安定であるため、フローや拡散ポリシーではそうすることは困難である。
既存の方法は、単に値を使用して勾配情報を破棄するか、あるいはポリシーの表現性を犠牲にしたり、学習したポリシーに偏見を負わせる近似に依存するかのいずれかによって、この問題に対処する。
QAMは、最近提案された生成的モデリングの手法である随伴マッチングを利用して、これらの課題の2つの側面を踏襲する。これは、批評家の行動勾配を不安定なバックプロパゲーションのない段階的客観的関数に変換し、最適にバイアスのない表現的ポリシーを提供する。
批判的学習のための時間差バックアップと組み合わせることで、QAMは、オフラインとオフラインのRLの両方において、ハード、スパースな報酬タスクに対する従来のアプローチを一貫して上回っている。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。