論文の概要: Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies
- arxiv url: http://arxiv.org/abs/2509.05735v1
- Date: Sat, 06 Sep 2025 14:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.679411
- Title: Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies
- Title(参考訳): モデルベースRLにおけるオフライン対オンライン学習:データ収集戦略の教訓
- Authors: Jiaqi Chen, Ji Shi, Cansu Sancaktar, Jonas Frey, Georg Martius,
- Abstract要約: データ収集は、モデルベースの強化学習において、堅牢な世界モデルを学ぶために不可欠である。
世界のモデルにおけるオンライン対オフラインのデータと結果のタスクパフォーマンスは、文献では十分に研究されていない。
オフラインエージェントのパフォーマンス劣化の鍵となる課題は、テスト時にアウトオフ・ディストリビューション状態に遭遇することである。
固定スケジュールや適応スケジュールで追加のオンラインインタラクションを行うことで、この問題を緩和できることを実証する。
- 参考スコア(独自算出の注目度): 41.452036409068235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data collection is crucial for learning robust world models in model-based reinforcement learning. The most prevalent strategies are to actively collect trajectories by interacting with the environment during online training or training on offline datasets. At first glance, the nature of learning task-agnostic environment dynamics makes world models a good candidate for effective offline training. However, the effects of online vs. offline data on world models and thus on the resulting task performance have not been thoroughly studied in the literature. In this work, we investigate both paradigms in model-based settings, conducting experiments on 31 different environments. First, we showcase that online agents outperform their offline counterparts. We identify a key challenge behind performance degradation of offline agents: encountering Out-Of-Distribution states at test time. This issue arises because, without the self-correction mechanism in online agents, offline datasets with limited state space coverage induce a mismatch between the agent's imagination and real rollouts, compromising policy training. We demonstrate that this issue can be mitigated by allowing for additional online interactions in a fixed or adaptive schedule, restoring the performance of online training with limited interaction data. We also showcase that incorporating exploration data helps mitigate the performance degradation of offline agents. Based on our insights, we recommend adding exploration data when collecting large datasets, as current efforts predominantly focus on expert data alone.
- Abstract(参考訳): データ収集は、モデルベースの強化学習において、堅牢な世界モデルを学ぶために不可欠である。
最も一般的な戦略は、オンライントレーニング中に環境と対話したり、オフラインデータセットでトレーニングすることで、トラジェクトリを積極的に収集することである。
一見すると、タスク非依存の環境力学の学習の性質は、世界モデルを効果的なオフライントレーニングの候補にしている。
しかし,オンラインデータとオフラインデータとが世界モデルに与える影響や,その結果のタスクパフォーマンスに与える影響は,本研究では十分に研究されていない。
本研究では,31の異なる環境で実験を行い,モデルベース設定における両方のパラダイムについて検討する。
まず、オンラインエージェントがオフラインエージェントより優れていることを示す。
オフラインエージェントのパフォーマンス劣化の鍵となる課題は、テスト時にアウトオフ・ディストリビューション状態に遭遇することである。
この問題は、オンラインエージェントの自己補正機構がなければ、状態空間に制限のあるオフラインデータセットがエージェントの想像力と実際のロールアウトのミスマッチを誘発し、ポリシートレーニングを損なうためである。
この問題は、オンライントレーニングのパフォーマンスを、限られたインタラクションデータで回復させることで、固定または適応的なスケジュールで追加のオンラインインタラクションを可能とすることで緩和できることを実証する。
また、探索データを組み込むことで、オフラインエージェントの性能劣化を軽減できることを示す。
私たちの洞察に基づいて、現在の取り組みは専門家データのみに重点を置いているため、大規模なデータセット収集時に探索データを追加することを推奨しています。
関連論文リスト
- Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。