Fugu-MT 論文翻訳(概要): Reward-Free Curricula for Training Robust World Models

論文の概要: Reward-Free Curricula for Training Robust World Models

arxiv url: http://arxiv.org/abs/2306.09205v1
Date: Thu, 15 Jun 2023 15:40:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 14:05:18.729074
Title: Reward-Free Curricula for Training Robust World Models
Title（参考訳）: ロバスト世界モデルの学習用リワードフリーカリキュラム
Authors: Marc Rigter, Minqi Jiang, Ingmar Posner
Abstract要約: 報酬のない探索から世界モデルを学ぶことは、有望なアプローチである。異なる環境は、適切な世界モデルを学ぶために異なる量のデータを必要とするかもしれない。我々は、報酬のない環境でロバストな世界モデルを効率的に学習する問題に対処する。
参考スコア（独自算出の注目度）: 21.56054914468903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been a recent surge of interest in developing generally-capable agents that can adapt to new tasks without additional training in the environment. Learning world models from reward-free exploration is a promising approach, and enables policies to be trained using imagined experience for new tasks. Achieving a general agent requires robustness across different environments. However, different environments may require different amounts of data to learn a suitable world model. In this work, we address the problem of efficiently learning robust world models in the reward-free setting. As a measure of robustness, we consider the minimax regret objective. We show that the minimax regret objective can be connected to minimising the maximum error in the world model across environments. This informs our algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for Robustness. WAKER selects environments for data collection based on the estimated error of the world model for each environment. Our experiments demonstrate that WAKER outperforms naive domain randomisation, resulting in improved robustness, efficiency, and generalisation.
Abstract（参考訳）: 環境に新たなトレーニングを加えることなく、新しいタスクに適応できる汎用的なエージェントの開発への関心が最近高まっている。報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。汎用エージェントを実現するには、異なる環境にまたがる堅牢性が必要である。しかし、異なる環境は適切な世界モデルを学ぶために異なる量のデータを必要とする。本研究では,報酬のない環境でロバストな世界モデルを効率的に学習する問題に対処する。堅牢性の尺度として、ミニマックス後悔の目的を考える。 minimax regretの目標は,環境をまたがる世界モデルにおける最大誤差を最小化することにある。これは我々のアルゴリズムであるWAKER: Weighted Acquisition of Knowledge across Environments for Robustnessに通知する。 WAKERは、各環境のワールドモデルの推定誤差に基づいて、データ収集のための環境を選択する。実験の結果、WAKERは単純領域ランダム化よりも優れ、堅牢性、効率、一般化が向上した。

関連論文リスト

Exploration-Driven Generative Interactive Environments [53.05314852577144]
我々は、低コストで自動収集されたインタラクションデータに多くの仮想環境を使用することに重点を置いている。仮想環境におけるランダムエージェントのみを用いたトレーニングフレームワークを提案する。我々のエージェントは環境固有の報酬に完全に依存しているため、新しい環境に容易に適応できる。
論文参考訳（メタデータ） (2025-04-03T12:01:41Z)
Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。 PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文参考訳（メタデータ） (2023-12-03T16:44:00Z)
Enhancing the Hierarchical Environment Design via Generative Trajectory Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文参考訳（メタデータ） (2023-09-30T08:21:32Z)
Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文参考訳（メタデータ） (2023-09-08T22:12:43Z)
OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文参考訳（メタデータ） (2021-10-13T17:48:23Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文参考訳（メタデータ） (2020-12-03T17:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。