論文の概要: Discrete Flow Matching for Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12379v1
- Date: Tue, 12 May 2026 16:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.02536
- Title: Discrete Flow Matching for Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン-オンライン強化学習のための離散フローマッチング
- Authors: Fairoz Nower Khan, Nabuat Zaman Nahim, Peizhong Ju,
- Abstract要約: DRIFTは、オフラインで事前訓練された連続時間マルコフ連鎖(CTMC)ポリシーを更新するオンラインの微調整手法である。
大規模離散的なアクション空間に対して、参照ポリシーロールアウトからサンプリングされたアクションの小さなサブセット上でアクターを更新する候補セット近似を導入する。
離散的動作RLタスクに対する実験により,本手法が全タスクに対して安定したオフライン-オンライン改善を実現することを示す。
- 参考スコア(独自算出の注目度): 10.112779201155005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning (RL) tasks have discrete action spaces, but most generative policy methods based on diffusion and flow matching are designed for continuous control. Meanwhile, generative policies usually rely heavily on offline datasets and offline-to-online RL is itself challenging, as the policy must improve from new interaction without losing useful behavior learned from static data. To address those challenges, we introduce DRIFT, an online fine-tuning method that updates an offline pretrained continuous-time Markov chain (CTMC) policy with an advantage-weighted discrete flow matching loss. To preserve useful pretrained knowledge, we add a path-space penalty that regularizes the full CTMC trajectory distribution, rather than only the final action distribution. For large discrete action spaces, we introduce a candidate-set approximation that updates the actor over a small subset of actions sampled from reference-policy rollouts and uniform exploration. Our theoretical analysis shows that the candidate-set error is controlled by missing target probability mass, and the induced CTMC generator error decreases as the candidate set covers more high-probability actions. Experiments on prevailing discrete action RL task show that our method provides stable offline-to-online improvement across all tasks, achieving the highest average score on Jericho with a simple GRU encoder while outperforming methods that use pretrained language models. Controlled experiments further confirm that the path-space penalty remains bounded during fine-tuning and that the CTMC generator adapts to shifted rewards faster than deterministic baselines. The candidate-set mechanism is supported by a stability analysis showing that the generator error decreases exponentially with candidate coverage.
- Abstract(参考訳): 多くの強化学習(RL)タスクは離散的な行動空間を持つが、拡散とフローマッチングに基づくほとんどの生成ポリシー手法は連続的な制御のために設計されている。
一方、生成ポリシーは、通常、オフラインデータセットに大きく依存し、オフラインからオフラインまでのRLは、静的データから学んだ有用な振る舞いを失うことなく、新しいインタラクションから改善する必要があるため、それ自体が困難である。
これらの課題に対処するために、オンラインの微調整手法であるDRIFTを導入する。これは、オフラインで事前訓練された連続時間マルコフ連鎖(CTMC)ポリシーを、アドバンテージな離散フローマッチング損失で更新する。
有用な事前学習知識を維持するため,最終動作分布だけでなく,CTMC軌道分布を正規化するためのパス空間ペナルティを付加する。
大規模離散アクション空間に対しては,参照ポリシーロールアウトと一様探索から抽出した少数のアクションに対して,アクターを更新する候補セット近似を導入する。
理論的解析により, 候補セットの誤差は目標確率質量の欠如によって制御され, 誘導CTMCジェネレータの誤差は, 候補セットがより高確率な動作をカバーしているため減少することが示された。
本手法は,GRUエンコーダを用いたJerrichoの平均スコアを最大化し,事前学習した言語モデルを用いた手法よりも高い性能を示した。
制御された実験により、経路空間のペナルティは微調整の間も拘束され続け、CTMCジェネレータは決定論的ベースラインよりも早くシフト報酬に適応することを確認した。
候補設定機構は、ジェネレータエラーが候補カバレッジとともに指数関数的に減少することを示す安定性解析によって支持される。
関連論文リスト
- Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches [4.364595470673757]
Portfolio Beam Search (PBS) はビームサーチ (BS) の簡便な代替手段である
我々は、推論時に逐次復号アルゴリズムに統合される不確実性を考慮した多様化機構を開発する。
D4RLベンチマークにおけるPBSの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-13T15:51:46Z) - Stabilizing Linear Passive-Aggressive Online Learning with Weighted Reservoir Sampling [46.01254613933967]
オンライン学習手法は、高次元ストリーミングデータ、アウトオブコア処理、その他のスループットに敏感なアプリケーションに依然として有効である。
このようなアルゴリズムの多くは、その収束の鍵として個々のエラーへの高速な適応に依存している。
このようなアルゴリズムは理論上の後悔は少ないが、現実の展開では個々の外れ値に敏感であり、アルゴリズムが過度に修正される可能性がある。
論文 参考訳(メタデータ) (2024-10-31T03:35:48Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。