Fugu-MT 論文翻訳(概要): ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization

論文の概要: ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization

arxiv url: http://arxiv.org/abs/2605.14497v1
Date: Thu, 14 May 2026 07:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.689605
Title: ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization
Title（参考訳）: ROAD:双方向最適化によるオフライン・オンライン強化学習のための適応データ混合
Authors: Letian Yang, Xu Liu, Yiqiang Lu, Jian Liu, Weiqiang Wang, Shuai Li,
Abstract要約: 適応データ混合(ROAD)を最適化した強化学習を提案する。 ROADはデータ再生プロセスを自動化する動的プラグイン・アンド・プレイフレームワークである。我々の経験的結果は、このアプローチが様々なデータセットで既存のデータ再生方法より一貫して優れていることを示している。
参考スコア（独自算出の注目度）: 19.46945184186446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline-to-online reinforcement learning harnesses the stability of offline pretraining and the flexibility of online fine-tuning. A key challenge lies in the non-stationary distribution shift between offline datasets and the evolving online policy. Common approaches often rely on static mixing ratios or heuristic-based replay strategies, which lack adaptability to different environments and varying training dynamics, resulting in suboptimal tradeoff between stability and asymptotic performance. In this work, we propose Reinforcement Learning with Optimized Adaptive Data-mixing (ROAD), a dynamic plug-and-play framework that automates the data replay process. We identify a fundamental objective misalignment in existing approaches. To tackle this, we formulate the data selection problem as a bi-level optimization process, interpreting the data mixing strategy as a meta-decision governing the policy performance (outer-level) during online fine-tuning, while the conventional Q-learning updates operate at the inner level. To make it tractable, we propose a practical algorithm using a multi-armed bandit mechanism. This is guided by a surrogate objective approximating the bi-level gradient, which simultaneously maintains offline priors and prevents value overestimation. Our empirical results demonstrate that this approach consistently outperforms existing data replay methods across various datasets, eliminating the need for manual, context-specific adjustments while achieving superior stability and asymptotic performance.
Abstract（参考訳）: オフライン間強化学習は、オフライン事前トレーニングの安定性とオンライン微調整の柔軟性を活用する。重要な課題は、オフラインデータセットと進化するオンラインポリシーの間の非定常的な分散シフトにある。一般的なアプローチは静的な混合比やヒューリスティックなリプレイ戦略に依存しており、異なる環境への適応性が欠如し、トレーニングのダイナミクスが変化しているため、安定性と漸近的なパフォーマンスの中間的なトレードオフが生じる。本研究では,データ再生プロセスを自動化する動的プラグアンドプレイフレームワークであるReinforcement Learning with Optimized Adaptive Data-mixing (ROAD)を提案する。既存のアプローチにおける根本的な客観的なミスアライメントを特定します。そこで本研究では,2段階の最適化プロセスとしてデータ選択問題を定式化し,従来のQラーニング更新が内部レベルで動作している間に,オンライン微調整中にポリシー性能(外部レベル)を規定するメタ決定としてデータ混合戦略を解釈する。そこで本研究では,マルチアームバンディット機構を用いた実用的なアルゴリズムを提案する。これは、双レベル勾配を近似する代理目的によって導かれ、同時にオフラインの事前値を維持し、値過大評価を防ぐ。実験の結果、このアプローチは様々なデータセット間で既存のデータ再生方法よりも一貫して優れており、安定性と漸近性能を向上しつつ、手動でコンテキスト特異的な調整を不要にしている。

関連論文リスト

IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning [13.655904209137006]
オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
論文参考訳（メタデータ） (2026-03-04T17:05:39Z)
From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification [3.2883573376133555]
StratDiffは、オフラインデータセットから事前知識を学ぶための拡散モデルである。この知識は、エネルギーベースの機能を通じて洗練され、ポリシーの模倣を改善し、オンラインの微調整中にオフラインのようなアクションを生成する。オフラインライクなサンプルはオフラインで更新され、オンラインライクなサンプルはオンライン学習戦略に従う。
論文参考訳（メタデータ） (2025-11-05T19:48:46Z)
Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control [12.961180148172199]
本研究では、クリーンなデータに対するポリシーをトレーニングし、敵対的な微調整を行うオフライン・オンライン・フレームワークを提案する。性能認識カリキュラムは、指数移動平均信号を介してトレーニング中の摂動確率を調整する。連続制御ロコモーションタスクの実験は、提案手法がオフラインのみのベースラインよりもロバスト性を向上させることを示す。
論文参考訳（メタデータ） (2025-10-15T09:45:24Z)
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。 MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。 D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-03-26T07:24:34Z)
Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文参考訳（メタデータ） (2025-03-15T18:12:16Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。 FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文参考訳（メタデータ） (2023-10-27T08:30:54Z)
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文参考訳（メタデータ） (2022-10-25T09:08:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。