論文の概要: Scalable Offline Model-Based RL with Action Chunks
- arxiv url: http://arxiv.org/abs/2512.08108v1
- Date: Mon, 08 Dec 2025 23:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.756365
- Title: Scalable Offline Model-Based RL with Action Chunks
- Title(参考訳): アクションチャンク付きスケーラブルオフラインモデルベースRL
- Authors: Kwanyoung Park, Seohong Park, Youngwoon Lee, Sergey Levine,
- Abstract要約: モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 60.80151356018376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study whether model-based reinforcement learning (RL), in particular model-based value expansion, can provide a scalable recipe for tackling complex, long-horizon tasks in offline RL. Model-based value expansion fits an on-policy value function using length-n imaginary rollouts generated by the current policy and a learned dynamics model. While larger n reduces bias in value bootstrapping, it amplifies accumulated model errors over long horizons, degrading future predictions. We address this trade-off with an \emph{action-chunk} model that predicts a future state from a sequence of actions (an "action chunk") instead of a single action, which reduces compounding errors. In addition, instead of directly training a policy to maximize rewards, we employ rejection sampling from an expressive behavioral action-chunk policy, which prevents model exploitation from out-of-distribution actions. We call this recipe \textbf{Model-Based RL with Action Chunks (MAC)}. Through experiments on highly challenging tasks with large-scale datasets of up to 100M transitions, we show that MAC achieves the best performance among offline model-based RL algorithms, especially on challenging long-horizon tasks.
- Abstract(参考訳): 本稿では、モデルベース強化学習(RL)、特にモデルベース値拡張は、オフラインRLにおける複雑で長期のタスクを扱うためのスケーラブルなレシピを提供することができるかを検討する。
モデルに基づく値展開は、現在のポリシーと学習されたダイナミックスモデルによって生成された長nの仮想ロールアウトを使って、政治上の値関数に適合する。
より大きなnは値ブートストラップのバイアスを減らすが、長い水平線上で蓄積されたモデルエラーを増幅し、将来の予測を劣化させる。
このトレードオフは、単一アクションではなく一連のアクション(「アクションチャンク」)から将来の状態を予測し、複合的なエラーを減少させる「emph{action-chunk}」モデルで対処する。
また,報酬を最大化するための政策を直接訓練する代わりに,表現的行動・チャンク政策からの拒絶サンプリングを採用し,モデル利用がアウト・オブ・ディストリビューション行動から逸脱することを防ぐ。
私たちはこのレシピを、Action Chunks (MAC) を使った \textbf{Model-based RL と呼ぶ。
最大1億のトランジションからなる大規模データセットを用いた高度に困難なタスクの実験を通じて、MACはオフラインモデルベースのRLアルゴリズムの中で、特に長期的タスクにおいて、最高のパフォーマンスを達成することを示す。
関連論文リスト
- Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。