論文の概要: SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer
- arxiv url: http://arxiv.org/abs/2602.17632v1
- Date: Thu, 19 Feb 2026 18:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.396077
- Title: SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer
- Title(参考訳): SMAC:ロバストオフライン-オンライン転送のためのスコアマッチアクター・クリティカル
- Authors: Nathan S. de Lara, Florian Shkurti,
- Abstract要約: Score Matched Actor-Criticは,オンライン価値ベースのRLアルゴリズムに変換するアクター批判を,パフォーマンスを低下させることなく学習するオフラインRL手法である。
実験により、SMACは、一階最適化によって得られる報酬を単調に増加させる経路を介して、より優れたオンライン最大値に接続するオフライン最大値に収束することを示した。
- 参考スコア(独自算出の注目度): 11.560365106113403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern offline Reinforcement Learning (RL) methods find performant actor-critics, however, fine-tuning these actor-critics online with value-based RL algorithms typically causes immediate drops in performance. We provide evidence consistent with the hypothesis that, in the loss landscape, offline maxima for prior algorithms and online maxima are separated by low-performance valleys that gradient-based fine-tuning traverses. Following this, we present Score Matched Actor-Critic (SMAC), an offline RL method designed to learn actor-critics that transition to online value-based RL algorithms with no drop in performance. SMAC avoids valleys between offline and online maxima by regularizing the Q-function during the offline phase to respect a first-order derivative equality between the score of the policy and action-gradient of the Q-function. We experimentally demonstrate that SMAC converges to offline maxima that are connected to better online maxima via paths with monotonically increasing reward found by first-order optimization. SMAC achieves smooth transfer to Soft Actor-Critic and TD3 in 6/6 D4RL tasks. In 4/6 environments, it reduces regret by 34-58% over the best baseline.
- Abstract(参考訳): 現代のオフライン強化学習(RL)手法は、アクター評論家をオンラインで微調整するが、価値ベースのRLアルゴリズムでこれらのアクター批判を微調整すると、パフォーマンスがすぐに低下する。
損失ランドスケープでは,事前アルゴリズムのオフライン最大値とオンライン最大値が,勾配に基づく微調整トラバースである低パフォーマンスな谷で分離されるという仮説に一致した証拠を提供する。
次に,Score Matched Actor-Critic (SMAC)を提案する。これは,オンライン価値ベースのRLアルゴリズムに変換されるアクター批判を,パフォーマンスの低下なく学習するためのオフラインRL手法である。
SMACは、オフライン相におけるQ-函数を規則化し、Q-函数のスコアとQ-函数の作用勾配の間の一階微分等式を尊重することで、オフラインとオンラインの最大の間の谷を避けている。
実験により、SMACは、一階最適化によって得られる報酬を単調に増加させる経路を介して、より優れたオンライン最大値に接続するオフライン最大値に収束することを示した。
SMACは6/6のD4RLタスクでSoft Actor-CriticとTD3へのスムーズな転送を実現する。
4/6環境では、最高のベースラインに対する後悔を34-58%減らす。
関連論文リスト
- SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning [31.408045330580087]
本稿では,安全なオフライン強化学習のためのアルゴリズムSOReLを紹介する。
オフライン強化学習アルゴリズムTOReLについても紹介する。
我々の経験的評価は, ベイズ条件下での後悔を正確に推定するSOReLの能力を裏付けるものである。
論文 参考訳(メタデータ) (2025-05-28T15:07:24Z) - Improving Offline RL by Blending Heuristics [33.810026421228635]
Heuristic Blendingは、値ブートストラップに基づくオフラインRLアルゴリズムの性能を改善する。
HubLは、4つの最先端ブートストラップベースのオフラインRLアルゴリズムのポリシー品質を一貫して改善する。
論文 参考訳(メタデータ) (2023-06-01T03:36:06Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。