論文の概要: Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.18117v1
- Date: Fri, 20 Feb 2026 10:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.293322
- Title: Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン-オンライン強化学習のためのインジェクトノイズによる流れマッチング
- Authors: Yongjae Shin, Jongseong Chae, Jongeui Park, Youngchul Sung,
- Abstract要約: オフラインRL(FINO)におけるインジェクトノイズを考慮したフローマッチングを提案する。
FINOは、オフラインからオンラインまでのRLのサンプル効率を高めるために、フローマッチングベースのポリシーを活用する新しい方法である。
多様な課題にまたがる実験は、FINOが限定的なオンライン予算の下で一貫して優れたパフォーマンスを達成していることを示している。
- 参考スコア(独自算出の注目度): 18.9517981804953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have recently demonstrated remarkable success across diverse domains, motivating their adoption as expressive policies in reinforcement learning (RL). While they have shown strong performance in offline RL, particularly where the target distribution is well defined, their extension to online fine-tuning has largely been treated as a direct continuation of offline pre-training, leaving key challenges unaddressed. In this paper, we propose Flow Matching with Injected Noise for Offline-to-Online RL (FINO), a novel method that leverages flow matching-based policies to enhance sample efficiency for offline-to-online RL. FINO facilitates effective exploration by injecting noise into policy training, thereby encouraging a broader range of actions beyond those observed in the offline dataset. In addition to exploration-enhanced flow policy training, we combine an entropy-guided sampling mechanism to balance exploration and exploitation, allowing the policy to adapt its behavior throughout online fine-tuning. Experiments across diverse, challenging tasks demonstrate that FINO consistently achieves superior performance under limited online budgets.
- Abstract(参考訳): 生成モデルは近年、様々な領域で顕著な成功を収めており、強化学習(RL)における表現的政策としての採用を動機付けている。
オフラインのRLでは、特にターゲットのディストリビューションが適切に定義されている場所では、高いパフォーマンスを示しているが、オンラインの微調整への拡張は、主にオフラインの事前トレーニングの直接的な継続として扱われており、重要な課題は未解決のままである。
本稿では,オフライン対オンラインRL(FINO)のためのフローマッチングとインジェクトノイズを用いたフローマッチングを提案し,オフライン対オンラインRLのサンプル効率を向上させるためにフローマッチングベースのポリシーを活用する。
FINOは、ポリシートレーニングにノイズを注入することで効果的な探索を促進する。
調査強化フローポリシートレーニングに加えて、エントロピー誘導サンプリング機構を組み合わせて、探索と搾取のバランスを取り、オンラインの微調整を通してその行動に適応できるようにします。
多様な課題にまたがる実験は、FINOが限定的なオンライン予算の下で一貫して優れたパフォーマンスを達成していることを示している。
関連論文リスト
- Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。
固有報酬としてQ条件状態エントロピー(QCSE)を提案する。
QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。