論文の概要: Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models
- arxiv url: http://arxiv.org/abs/2502.14819v1
- Date: Thu, 20 Feb 2025 18:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:10.193086
- Title: Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models
- Title(参考訳): 逆フリーオフラインデータから学ぶ:潜在ダイナミクスモデルを用いた計画の事例
- Authors: Vlad Sobal, Wancong Zhang, Kynghyun Cho, Randall Balestriero, Tim G. J. Rudner, Yann LeCun,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
- 参考スコア(独自算出の注目度): 31.509112804985133
- License:
- Abstract: A long-standing goal in AI is to build agents that can solve a variety of tasks across different environments, including previously unseen ones. Two dominant approaches tackle this challenge: (i) reinforcement learning (RL), which learns policies through trial and error, and (ii) optimal control, which plans actions using a learned or known dynamics model. However, their relative strengths and weaknesses remain underexplored in the setting where agents must learn from offline trajectories without reward annotations. In this work, we systematically analyze the performance of different RL and control-based methods under datasets of varying quality. On the RL side, we consider goal-conditioned and zero-shot approaches. On the control side, we train a latent dynamics model using the Joint Embedding Predictive Architecture (JEPA) and use it for planning. We study how dataset properties-such as data diversity, trajectory quality, and environment variability-affect the performance of these approaches. Our results show that model-free RL excels when abundant, high-quality data is available, while model-based planning excels in generalization to novel environment layouts, trajectory stitching, and data-efficiency. Notably, planning with a latent dynamics model emerges as a promising approach for zero-shot generalization from suboptimal data.
- Abstract(参考訳): AIの長年の目標は、これまで目に見えないものを含め、さまざまな環境にまたがるさまざまなタスクを解決できるエージェントを構築することだ。
2つの主要なアプローチがこの課題に取り組みます。
(i)試行錯誤による政策学習を行う強化学習(RL)
(II) 学習または既知の力学モデルを用いて動作を計画する最適制御。
しかし、その相対的な強みと弱みは、エージェントが報酬のアノテーションなしでオフラインの軌跡から学ばなければならないという設定において、まだ過小評価されていない。
本研究では,異なる品質のデータセットを用いて,異なるRLおよび制御に基づく手法の性能を系統的に解析する。
RL側では、ゴール条件付きおよびゼロショットのアプローチを検討する。
制御側では、JEPA(Joint Embedding Predictive Architecture)を使用して潜在ダイナミクスモデルをトレーニングし、それを計画に使用します。
本研究では,データ多様性,軌道品質,環境変動などのデータセット特性が,これらの手法の性能に与える影響について検討する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
特に、潜在動力学モデルによる計画は、準最適データからのゼロショット一般化のための有望なアプローチとして現れる。
関連論文リスト
- Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。