Fugu-MT 論文翻訳(概要): Procedural Generalization by Planning with Self-Supervised World Models

論文の概要: Procedural Generalization by Planning with Self-Supervised World Models

arxiv url: http://arxiv.org/abs/2111.01587v1
Date: Tue, 2 Nov 2021 13:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-03 18:29:55.811993
Title: Procedural Generalization by Planning with Self-Supervised World Models
Title（参考訳）: 自己監督型世界モデルによる計画立案による手続き的一般化
Authors: Ankesh Anand, Jacob Walker, Yazhe Li, Eszter V\'ertes, Julian Schrittwieser, Sherjil Ozair, Th\'eophane Weber, Jessica B. Hamrick
Abstract要約: モデルベースエージェントの一般化能力をモデルフリーエージェントと比較した。手続き的一般化の要因は,計画,自己指導型表現学習,手続き的データの多様性の3つである。これらの要因が必ずしもタスクの一般化に同じ利益をもたらすとは限らないことが分かっています。
参考スコア（独自算出の注目度）: 10.119257232716834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the key promises of model-based reinforcement learning is the ability to generalize using an internal model of the world to make predictions in novel environments and tasks. However, the generalization ability of model-based agents is not well understood because existing work has focused on model-free agents when benchmarking generalization. Here, we explicitly measure the generalization ability of model-based agents in comparison to their model-free counterparts. We focus our analysis on MuZero (Schrittwieser et al., 2020), a powerful model-based agent, and evaluate its performance on both procedural and task generalization. We identify three factors of procedural generalization -- planning, self-supervised representation learning, and procedural data diversity -- and show that by combining these techniques, we achieve state-of-the art generalization performance and data efficiency on Procgen (Cobbe et al., 2019). However, we find that these factors do not always provide the same benefits for the task generalization benchmarks in Meta-World (Yu et al., 2019), indicating that transfer remains a challenge and may require different approaches than procedural generalization. Overall, we suggest that building generalizable agents requires moving beyond the single-task, model-free paradigm and towards self-supervised model-based agents that are trained in rich, procedural, multi-task environments.
Abstract（参考訳）: モデルベースの強化学習の重要な約束の1つは、世界の内部モデルを使って新しい環境やタスクで予測を一般化する能力である。しかし、モデルベースエージェントの一般化能力は、ベンチマークの一般化において、既存の作業がモデルフリーエージェントに焦点を当てているため、よく分かっていない。本稿では,モデルフリーエージェントと比較して,モデルベースエージェントの一般化能力を明確に評価する。我々は、強力なモデルベースエージェントであるMuZero(Schrittwieser et al., 2020)に着目し、手続き的およびタスクの一般化においてその性能を評価する。手続き的一般化の3つの要因 – 計画,自己指導型表現学習,手続き的データ多様性 – を同定し,これらの手法を組み合わせることで, Procgen(Cobbe et al., 2019)の最先端の一般化性能とデータ効率を達成することを示す。しかしながら、これらの要因がメタワールドにおけるタスク一般化ベンチマーク(yuなど、2019年)に常に同じ利点をもたらすとは限らないことが分かり、転送は依然として課題であり、手続き的一般化とは異なるアプローチを必要とする可能性があることを示している。全体として、汎用エージェントの構築には、単一タスク、モデルフリーパラダイムを超えて、リッチで手続き的でマルチタスク環境で訓練された自己教師型モデルベースエージェントに移行する必要があることを示唆する。

関連論文リスト

OMGPT: A Sequence Modeling Framework for Data-driven Operational Decision Making [5.419799294989289]
我々は、逐次意思決定タスクを解決するために、生成事前学習変換(GPT)モデルを構築した。本稿ではまず,複数の作業上の意思決定タスクをカバーする汎用シーケンスモデリングフレームワークを提案する。次に、シーケンシャルモデリングのための自然かつ強力なアーキテクチャとして、トランスフォーマーベースのニューラルネットワークモデル(OMGPT)をトレーニングする。
論文参考訳（メタデータ） (2025-05-19T15:33:03Z)
PEER pressure: Model-to-Model Regularization for Single Source Domain Generalization [12.15086255236961]
対象領域におけるこのような拡張に基づく手法の性能は、訓練中に普遍的に変動することを示す。本稿では,新しい一般化法を提案する。 Space Ensemble with Entropy Regularization (PEER) – プロキシモデルを使用して、拡張データを学ぶ。
論文参考訳（メタデータ） (2025-05-19T06:01:11Z)
The Science of Evaluating Foundation Models [46.973855710909746]
本研究は,(1)特定のユースケースに合わせた構造化されたフレームワークを提供することによる評価プロセスの形式化,(2)チェックリストやテンプレートなどのアクション可能なツールとフレームワークを提供することによる,徹底的,再現性,実践的評価の確保,(3)LLM評価の進歩を目標とした調査,そして実世界のアプリケーションを強調すること,の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2025-02-12T22:55:43Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Toward Universal and Interpretable World Models for Open-ended Learning Agents [0.0]
オープンエンド学習エージェントをサポートするジェネリック,コンポジション,解釈可能な生成世界モデルについて紹介する。これは広い範囲のプロセスを近似できるベイズネットワークのスパースクラスであり、エージェントは解釈可能かつ計算にスケーラブルな方法で世界モデルを学ぶことができる。
論文参考訳（メタデータ） (2024-09-27T12:03:15Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
Building Socially-Equitable Public Models [32.35090986784889]
パブリックモデルは、さまざまなダウンストリームタスクを予測し、さまざまなAIアプリケーションにおいて重要な役割を果たす。我々は、下流エージェントの目的を最適化プロセスに統合することを提唱する。本研究では,不均一なエージェント間の公平性を育成し,パフォーマンスの相違に対処する新しいエクイタブル・オブジェクトを提案する。
論文参考訳（メタデータ） (2024-06-04T21:27:43Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。コード及び事前訓練されたジェネリストモデルは、解放される。
論文参考訳（メタデータ） (2022-06-09T17:59:59Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Leveraging Approximate Symbolic Models for Reinforcement Learning via Skill Diversity [32.35693772984721]
シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
論文参考訳（メタデータ） (2022-02-06T23:20:30Z)
A Self-Supervised Framework for Function Learning and Extrapolation [1.9374999427973014]
本稿では,学習者が一般化を支援する表現を取得するためのフレームワークを提案する。得られた表現は、教師なし時系列学習において、他のモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-14T12:41:03Z)
Robustness to Augmentations as a Generalization metric [0.0]
一般化とは、目に見えないドメインを予測するモデルの能力です。拡張に頑健なモデルは、そうでないモデルよりも一般化可能であるという概念を用いて、モデルの一般化性能を予測する手法を提案する。提案手法は、ディープラーニングにおける一般化予測に関するNeurIPSコンペティションの最初のランナーアップソリューションであった。
論文参考訳（メタデータ） (2021-01-16T15:36:38Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。