論文の概要: Offline-Online Reinforcement Learning for Linear Mixture MDPs
- arxiv url: http://arxiv.org/abs/2604.11994v1
- Date: Mon, 13 Apr 2026 19:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.08805
- Title: Offline-Online Reinforcement Learning for Linear Mixture MDPs
- Title(参考訳): 線形混合MDPのオフライン強化学習
- Authors: Zhongjun Zhang, Sean R. Sinclair,
- Abstract要約: 環境変化下における線形混合マルコフ決定過程(MDP)のオフライン・オンライン強化学習について検討した。
オフラインフェーズでは、データは未知の行動ポリシーによって収集され、ミスマッチした環境から来る可能性がある。
オフラインデータを適応的に活用するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.5538445885586951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline-online reinforcement learning in linear mixture Markov decision processes (MDPs) under environment shift. In the offline phase, data are collected by an unknown behavior policy and may come from a mismatched environment, while in the online phase the learner interacts with the target environment. We propose an algorithm that adaptively leverages offline data. When the offline data are informative, either due to sufficient coverage or small environment shift, the algorithm provably improves over purely online learning. When the offline data are uninformative, it safely ignores them and matches the online-only performance. We establish regret upper bounds that explicitly characterize when offline data are beneficial, together with nearly matching lower bounds. Numerical experiments further corroborate our theoretical findings.
- Abstract(参考訳): 環境変化下における線形混合マルコフ決定過程(MDP)のオフライン・オンライン強化学習について検討した。
オフラインフェーズでは、データは未知の行動ポリシーによって収集され、オンラインフェーズでは学習者がターゲット環境と相互作用する。
オフラインデータを適応的に活用するアルゴリズムを提案する。
オフラインデータに十分なカバレッジや環境の変化がある場合、アルゴリズムは純粋にオンライン学習よりも確実に改善する。
オフラインデータが非形式的であれば、それらは安全に無視され、オンラインのみのパフォーマンスと一致します。
我々は、オフラインデータが有益であるときに明確に特徴付ける後悔の上限と、ほぼ一致する下限を確立する。
数値実験は我々の理論的な発見をさらに裏付ける。
関連論文リスト
- Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies [41.452036409068235]
データ収集は、モデルベースの強化学習において、堅牢な世界モデルを学ぶために不可欠である。
世界のモデルにおけるオンライン対オフラインのデータと結果のタスクパフォーマンスは、文献では十分に研究されていない。
オフラインエージェントのパフォーマンス劣化の鍵となる課題は、テスト時にアウトオフ・ディストリビューション状態に遭遇することである。
固定スケジュールや適応スケジュールで追加のオンラインインタラクションを行うことで、この問題を緩和できることを実証する。
論文 参考訳(メタデータ) (2025-09-06T14:52:33Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations [43.9636309593499]
我々は、観測からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
我々は、$textbfM$odality-agnostic $textbfA$dversarial $textbfH$ypothesis $textbfA$daptation for $textbfL$earning from $textbfO$bservation (MAHALO)と呼ばれるオフラインPLfOに対する一般的なアプローチを提示します。
論文 参考訳(メタデータ) (2023-03-30T05:27:46Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Leveraging Offline Data in Online Reinforcement Learning [24.18369781999988]
強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。
オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$epsilon$-Optimal Policyを見つけるためには、それと対話する必要がある。
オフラインのRL設定では、学習者はそこから学ぶために固定されたデータセットにアクセスするが、それ以外は環境との相互作用ができず、このオフラインデータから可能な限りのポリシーを取得する必要がある。
論文 参考訳(メタデータ) (2022-11-09T15:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。