論文の概要: Procedural Generalization by Planning with Self-Supervised World Models
- arxiv url: http://arxiv.org/abs/2111.01587v1
- Date: Tue, 2 Nov 2021 13:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 18:29:55.811993
- Title: Procedural Generalization by Planning with Self-Supervised World Models
- Title(参考訳): 自己監督型世界モデルによる計画立案による手続き的一般化
- Authors: Ankesh Anand, Jacob Walker, Yazhe Li, Eszter V\'ertes, Julian
Schrittwieser, Sherjil Ozair, Th\'eophane Weber, Jessica B. Hamrick
- Abstract要約: モデルベースエージェントの一般化能力をモデルフリーエージェントと比較した。
手続き的一般化の要因は,計画,自己指導型表現学習,手続き的データの多様性の3つである。
これらの要因が必ずしもタスクの一般化に同じ利益をもたらすとは限らないことが分かっています。
- 参考スコア(独自算出の注目度): 10.119257232716834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the key promises of model-based reinforcement learning is the ability
to generalize using an internal model of the world to make predictions in novel
environments and tasks. However, the generalization ability of model-based
agents is not well understood because existing work has focused on model-free
agents when benchmarking generalization. Here, we explicitly measure the
generalization ability of model-based agents in comparison to their model-free
counterparts. We focus our analysis on MuZero (Schrittwieser et al., 2020), a
powerful model-based agent, and evaluate its performance on both procedural and
task generalization. We identify three factors of procedural generalization --
planning, self-supervised representation learning, and procedural data
diversity -- and show that by combining these techniques, we achieve
state-of-the art generalization performance and data efficiency on Procgen
(Cobbe et al., 2019). However, we find that these factors do not always provide
the same benefits for the task generalization benchmarks in Meta-World (Yu et
al., 2019), indicating that transfer remains a challenge and may require
different approaches than procedural generalization. Overall, we suggest that
building generalizable agents requires moving beyond the single-task,
model-free paradigm and towards self-supervised model-based agents that are
trained in rich, procedural, multi-task environments.
- Abstract(参考訳): モデルベースの強化学習の重要な約束の1つは、世界の内部モデルを使って新しい環境やタスクで予測を一般化する能力である。
しかし、モデルベースエージェントの一般化能力は、ベンチマークの一般化において、既存の作業がモデルフリーエージェントに焦点を当てているため、よく分かっていない。
本稿では,モデルフリーエージェントと比較して,モデルベースエージェントの一般化能力を明確に評価する。
我々は、強力なモデルベースエージェントであるMuZero(Schrittwieser et al., 2020)に着目し、手続き的およびタスクの一般化においてその性能を評価する。
手続き的一般化の3つの要因 – 計画,自己指導型表現学習,手続き的データ多様性 – を同定し,これらの手法を組み合わせることで, Procgen(Cobbe et al., 2019)の最先端の一般化性能とデータ効率を達成することを示す。
しかしながら、これらの要因がメタワールドにおけるタスク一般化ベンチマーク(yuなど、2019年)に常に同じ利点をもたらすとは限らないことが分かり、転送は依然として課題であり、手続き的一般化とは異なるアプローチを必要とする可能性があることを示している。
全体として、汎用エージェントの構築には、単一タスク、モデルフリーパラダイムを超えて、リッチで手続き的でマルチタスク環境で訓練された自己教師型モデルベースエージェントに移行する必要があることを示唆する。
関連論文リスト
- TrainerAgent: Customizable and Efficient Model Training through
LLM-Powered Multi-Agent System [14.019244136838017]
TrainerAgentは、タスク、データ、モデル、サーバーエージェントを含むマルチエージェントフレームワークである。
これらのエージェントは、ユーザ定義のタスク、入力データ、要求(例えば、精度、速度)を分析し、データとモデルの両方の観点からそれらを最適化して満足なモデルを取得し、最終的にこれらのモデルをオンラインサービスとしてデプロイする。
本研究は,従来のモデル開発と比較して,効率と品質が向上した望ましいモデルの実現において,大きな進歩を示すものである。
論文 参考訳(メタデータ) (2023-11-11T17:39:24Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity [32.35693772984721]
シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。
これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。
低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
論文 参考訳(メタデータ) (2022-02-06T23:20:30Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - A Self-Supervised Framework for Function Learning and Extrapolation [1.9374999427973014]
本稿では,学習者が一般化を支援する表現を取得するためのフレームワークを提案する。
得られた表現は、教師なし時系列学習において、他のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-14T12:41:03Z) - Robustness to Augmentations as a Generalization metric [0.0]
一般化とは、目に見えないドメインを予測するモデルの能力です。
拡張に頑健なモデルは、そうでないモデルよりも一般化可能であるという概念を用いて、モデルの一般化性能を予測する手法を提案する。
提案手法は、ディープラーニングにおける一般化予測に関するNeurIPSコンペティションの最初のランナーアップソリューションであった。
論文 参考訳(メタデータ) (2021-01-16T15:36:38Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。