論文の概要: On the role of planning in model-based deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2011.04021v2
- Date: Wed, 17 Mar 2021 11:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:11:29.922633
- Title: On the role of planning in model-based deep reinforcement learning
- Title(参考訳): モデルベース深層強化学習における計画の役割について
- Authors: Jessica B. Hamrick, Abram L. Friesen, Feryal Behbahani, Arthur Guez,
Fabio Viola, Sims Witherspoon, Thomas Anthony, Lars Buesing, Petar
Veli\v{c}kovi\'c, Th\'eophane Weber
- Abstract要約: 最新のモデルに基づく強化学習アルゴリズムであるMuZeroの性能について検討する。
計画はポリシー更新やより有用なデータ配布に最も役立ちます。
単純なモンテカルロロールアウトを持つ浅い木を使うことは、最も難しい推論タスクを除いて、より複雑な方法と同じくらいパフォーマンスが高い。
- 参考スコア(独自算出の注目度): 19.082481172513635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based planning is often thought to be necessary for deep, careful
reasoning and generalization in artificial agents. While recent successes of
model-based reinforcement learning (MBRL) with deep function approximation have
strengthened this hypothesis, the resulting diversity of model-based methods
has also made it difficult to track which components drive success and why. In
this paper, we seek to disentangle the contributions of recent methods by
focusing on three questions: (1) How does planning benefit MBRL agents? (2)
Within planning, what choices drive performance? (3) To what extent does
planning improve generalization? To answer these questions, we study the
performance of MuZero (Schrittwieser et al., 2019), a state-of-the-art MBRL
algorithm with strong connections and overlapping components with many other
MBRL algorithms. We perform a number of interventions and ablations of MuZero
across a wide range of environments, including control tasks, Atari, and 9x9
Go. Our results suggest the following: (1) Planning is most useful in the
learning process, both for policy updates and for providing a more useful data
distribution. (2) Using shallow trees with simple Monte-Carlo rollouts is as
performant as more complex methods, except in the most difficult reasoning
tasks. (3) Planning alone is insufficient to drive strong generalization. These
results indicate where and how to utilize planning in reinforcement learning
settings, and highlight a number of open questions for future MBRL research.
- Abstract(参考訳): モデルに基づく計画はしばしば、人工エージェントの深い、慎重な推論と一般化のために必要であると考えられている。
近年, モデルベース強化学習 (MBRL) の深部関数近似による成功により, この仮説が強化されているが, モデルベース手法の多様性により, どのコンポーネントが成功を導くか, 理由を追跡することが困難になっている。
本稿では,MBRLエージェントにどのようなメリットがあるのかという3つの疑問に焦点をあてて,近年の手法の貢献を解消する。
2) 計画の中で、パフォーマンスを駆動する選択は何か?
3)計画の一般化はどこまで改善されるのか。
これらの疑問に答えるために,多くのMBRLアルゴリズムと重なり合うコンポーネントを持つ最先端のMBRLアルゴリズムであるMuZero(Schrittwieser et al., 2019)の性能について検討した。
我々は,制御タスク,atari,9x9 go など,幅広い環境において muzero の介入とアブレーションを行う。
1)計画は,政策更新と,より有用なデータ配信の両面において,学習プロセスにおいて最も有用である。
2) 単純なモンテカルロロールアウトを持つ浅い木を使うことは、最も難しい推論タスクを除いて、より複雑な方法と同じくらいパフォーマンスが高い。
3) 計画だけでは,強力な一般化を推進するには不十分である。
これらの結果は、強化学習環境における計画の活用方法と、今後のMBRL研究の課題を浮き彫りにしたものである。
関連論文リスト
- On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなった
モデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。
GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-09-13T08:59:31Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - AI Planning Annotation for Sample Efficient Reinforcement Learning [39.4624736757278]
我々は、強化学習(RL)の効率を向上させるために、適切に定義された計画モデルを用いることができることを示す。
本実験では, 従来のRL環境よりも, 様々なRL環境において, サンプル効率が向上したことを示す。
論文 参考訳(メタデータ) (2022-03-01T18:38:41Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - A Game Theoretic Framework for Model Based Reinforcement Learning [39.45066100705418]
モデルベース強化学習(MBRL)は、最近、サンプル効率と非政治データを組み込む能力により、大きな関心を集めている。
我々は,MBRLをゲームとして活用する新たなフレームワークを開発する。(1)学習モデルの下で報酬を最大化しようとするポリシープレイヤー,(2)ポリシープレイヤーが収集した実世界のデータに適合しようとするモデルプレイヤー。
当社のフレームワークは一貫性があり,従来から重要であった勾配の明確な基盤を提供します。
論文 参考訳(メタデータ) (2020-04-16T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。