Fugu-MT 論文翻訳(概要): Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

論文の概要: Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

arxiv url: http://arxiv.org/abs/2502.14819v1
Date: Thu, 20 Feb 2025 18:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.81466
Title: Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models
Title（参考訳）: 逆フリーオフラインデータから学ぶ:潜在ダイナミクスモデルを用いた計画の事例
Authors: Vlad Sobal, Wancong Zhang, Kynghyun Cho, Randall Balestriero, Tim G. J. Rudner, Yann LeCun,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
参考スコア（独自算出の注目度）: 31.509112804985133
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A long-standing goal in AI is to build agents that can solve a variety of tasks across different environments, including previously unseen ones. Two dominant approaches tackle this challenge: (i) reinforcement learning (RL), which learns policies through trial and error, and (ii) optimal control, which plans actions using a learned or known dynamics model. However, their relative strengths and weaknesses remain underexplored in the setting where agents must learn from offline trajectories without reward annotations. In this work, we systematically analyze the performance of different RL and control-based methods under datasets of varying quality. On the RL side, we consider goal-conditioned and zero-shot approaches. On the control side, we train a latent dynamics model using the Joint Embedding Predictive Architecture (JEPA) and use it for planning. We study how dataset properties-such as data diversity, trajectory quality, and environment variability-affect the performance of these approaches. Our results show that model-free RL excels when abundant, high-quality data is available, while model-based planning excels in generalization to novel environment layouts, trajectory stitching, and data-efficiency. Notably, planning with a latent dynamics model emerges as a promising approach for zero-shot generalization from suboptimal data.
Abstract（参考訳）: AIの長年の目標は、これまで目に見えないものを含め、さまざまな環境にまたがるさまざまなタスクを解決できるエージェントを構築することだ。 2つの主要なアプローチがこの課題に取り組みます。 (i)試行錯誤による政策学習を行う強化学習(RL) (II) 学習または既知の力学モデルを用いて動作を計画する最適制御。しかし、その相対的な強みと弱みは、エージェントが報酬のアノテーションなしでオフラインの軌跡から学ばなければならないという設定において、まだ過小評価されていない。本研究では,異なる品質のデータセットを用いて,異なるRLおよび制御に基づく手法の性能を系統的に解析する。 RL側では、ゴール条件付きおよびゼロショットのアプローチを検討する。制御側では、JEPA(Joint Embedding Predictive Architecture)を使用して潜在ダイナミクスモデルをトレーニングし、それを計画に使用します。本研究では,データ多様性,軌道品質,環境変動などのデータセット特性が,これらの手法の性能に与える影響について検討する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。特に、潜在動力学モデルによる計画は、準最適データからのゼロショット一般化のための有望なアプローチとして現れる。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。政策とともに世界モデルを動的に適用する枠組みを提案する。我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文参考訳（メタデータ） (2025-05-19T20:14:33Z)
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。 MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。 D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-03-26T07:24:34Z)
Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文参考訳（メタデータ） (2024-10-16T04:56:43Z)
Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。 DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文参考訳（メタデータ） (2024-03-10T22:27:21Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文参考訳（メタデータ） (2021-05-16T05:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。