Fugu-MT 論文翻訳(概要): Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

論文の概要: Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.18117v1
Date: Fri, 20 Feb 2026 10:14:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.293322
Title: Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning
Title（参考訳）: オフライン-オンライン強化学習のためのインジェクトノイズによる流れマッチング
Authors: Yongjae Shin, Jongseong Chae, Jongeui Park, Youngchul Sung,
Abstract要約: オフラインRL(FINO)におけるインジェクトノイズを考慮したフローマッチングを提案する。 FINOは、オフラインからオンラインまでのRLのサンプル効率を高めるために、フローマッチングベースのポリシーを活用する新しい方法である。多様な課題にまたがる実験は、FINOが限定的なオンライン予算の下で一貫して優れたパフォーマンスを達成していることを示している。
参考スコア（独自算出の注目度）: 18.9517981804953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative models have recently demonstrated remarkable success across diverse domains, motivating their adoption as expressive policies in reinforcement learning (RL). While they have shown strong performance in offline RL, particularly where the target distribution is well defined, their extension to online fine-tuning has largely been treated as a direct continuation of offline pre-training, leaving key challenges unaddressed. In this paper, we propose Flow Matching with Injected Noise for Offline-to-Online RL (FINO), a novel method that leverages flow matching-based policies to enhance sample efficiency for offline-to-online RL. FINO facilitates effective exploration by injecting noise into policy training, thereby encouraging a broader range of actions beyond those observed in the offline dataset. In addition to exploration-enhanced flow policy training, we combine an entropy-guided sampling mechanism to balance exploration and exploitation, allowing the policy to adapt its behavior throughout online fine-tuning. Experiments across diverse, challenging tasks demonstrate that FINO consistently achieves superior performance under limited online budgets.
Abstract（参考訳）: 生成モデルは近年、様々な領域で顕著な成功を収めており、強化学習(RL)における表現的政策としての採用を動機付けている。オフラインのRLでは、特にターゲットのディストリビューションが適切に定義されている場所では、高いパフォーマンスを示しているが、オンラインの微調整への拡張は、主にオフラインの事前トレーニングの直接的な継続として扱われており、重要な課題は未解決のままである。本稿では,オフライン対オンラインRL(FINO)のためのフローマッチングとインジェクトノイズを用いたフローマッチングを提案し,オフライン対オンラインRLのサンプル効率を向上させるためにフローマッチングベースのポリシーを活用する。 FINOは、ポリシートレーニングにノイズを注入することで効果的な探索を促進する。調査強化フローポリシートレーニングに加えて、エントロピー誘導サンプリング機構を組み合わせて、探索と搾取のバランスを取り、オンラインの微調整を通してその行動に適応できるようにします。多様な課題にまたがる実験は、FINOが限定的なオンライン予算の下で一貫して優れたパフォーマンスを達成していることを示している。

関連論文リスト

From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification [3.2883573376133555]
StratDiffは、オフラインデータセットから事前知識を学ぶための拡散モデルである。この知識は、エネルギーベースの機能を通じて洗練され、ポリシーの模倣を改善し、オンラインの微調整中にオフラインのようなアクションを生成する。オフラインライクなサンプルはオフラインで更新され、オンラインライクなサンプルはオンライン学習戦略に従う。
論文参考訳（メタデータ） (2025-11-05T19:48:46Z)
Reinforcement Learning with Action Chunking [56.66655947239018]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文参考訳（メタデータ） (2025-06-26T16:09:53Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-09T13:47:05Z)
Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。固有報酬としてQ条件状態エントロピー(QCSE)を提案する。 QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文参考訳（メタデータ） (2023-10-07T00:02:05Z)
A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。 SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文参考訳（メタデータ） (2023-06-13T05:22:26Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文参考訳（メタデータ） (2022-10-25T09:08:26Z)
MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文参考訳（メタデータ） (2022-01-25T03:14:57Z)
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文参考訳（メタデータ） (2020-10-26T14:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。