論文の概要: Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL
- arxiv url: http://arxiv.org/abs/2511.03695v1
- Date: Wed, 05 Nov 2025 18:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.517782
- Title: Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL
- Title(参考訳): 行動適応型Q-Learning:オフライン対オンラインRLのための統一フレームワーク
- Authors: Lipeng Zu, Hansong Zhou, Xiaonan Zhang,
- Abstract要約: 本稿では,オフラインからオンラインRLへのスムーズな移行を可能にするフレームワークである行動適応型Q-Learning(BAQ)を紹介する。
BAQは、(i)不確実性が高い場合のオフライン行動に対してオンラインポリシーを整列させ、(ii)より確実なオンライン体験が蓄積されるにつれて、この制約を徐々に緩和する二重目的損失を包含する。
標準ベンチマーク全体を通じて、BAQは、オフラインからオフラインまでのRLアプローチを一貫して上回り、より高速なリカバリ、堅牢性の向上、全体的なパフォーマンスの向上を実現している。
- 参考スコア(独自算出の注目度): 3.2883573376133555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) enables training from fixed data without online interaction, but policies learned offline often struggle when deployed in dynamic environments due to distributional shift and unreliable value estimates on unseen state-action pairs. We introduce Behavior-Adaptive Q-Learning (BAQ), a framework designed to enable a smooth and reliable transition from offline to online RL. The key idea is to leverage an implicit behavioral model derived from offline data to provide a behavior-consistency signal during online fine-tuning. BAQ incorporates a dual-objective loss that (i) aligns the online policy toward the offline behavior when uncertainty is high, and (ii) gradually relaxes this constraint as more confident online experience is accumulated. This adaptive mechanism reduces error propagation from out-of-distribution estimates, stabilizes early online updates, and accelerates adaptation to new scenarios. Across standard benchmarks, BAQ consistently outperforms prior offline-to-online RL approaches, achieving faster recovery, improved robustness, and higher overall performance. Our results demonstrate that implicit behavior adaptation is a principled and practical solution for reliable real-world policy deployment.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションを伴わない固定データからのトレーニングを可能にするが、分散シフトと、目に見えない状態-動作ペアに対する信頼できない値推定のために、動的環境にデプロイされたときにオフラインで学習するポリシーは、しばしば苦労する。
本稿では,オフラインからオンラインRLへのスムーズで信頼性の高い移行を可能にするフレームワークである,行動適応型Q-Learning(BAQ)を紹介する。
鍵となる考え方は、オフラインデータから派生した暗黙の行動モデルを活用して、オンラインの微調整中に行動一貫性信号を提供することである。
BAQは二重目的損失を組み込む
(i)不確実性が高い場合のオフライン行動に対するオンライン政策の整合性、及び
(二)より自信のあるオンライン体験が蓄積されるにつれて、この制約は徐々に緩和される。
この適応メカニズムは、アウト・オブ・ディストリビューション推定からのエラー伝搬を低減し、早期オンライン更新を安定化し、新しいシナリオへの適応を加速する。
標準ベンチマーク全体を通じて、BAQは、オフラインからオフラインまでのRLアプローチを一貫して上回り、より高速なリカバリ、堅牢性の向上、全体的なパフォーマンスの向上を実現している。
この結果から,暗黙の行動適応は信頼性の高い実世界の政策展開のための原則的かつ実践的な解決策であることが示された。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。