論文の概要: Active World Model Learning with Progress Curiosity
- arxiv url: http://arxiv.org/abs/2007.07853v1
- Date: Wed, 15 Jul 2020 17:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 04:34:40.558447
- Title: Active World Model Learning with Progress Curiosity
- Title(参考訳): プログレッシブ好奇心を用いたアクティブワールドモデル学習
- Authors: Kuno Kim, Megumi Sano, Julian De Freitas, Nick Haber, Daniel Yamins
- Abstract要約: 世界モデルは、世界がどのように進化するかの自己監督的な予測モデルである。
本研究では,このような好奇心駆動型アクティブワールドモデル学習システムの設計方法について検討する。
我々は、スケーラブルで効果的な学習進捗に基づく好奇心信号である$gamma$-Progressによって駆動されるAWMLシステムを提案する。
- 参考スコア(独自算出の注目度): 12.077052764803163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are self-supervised predictive models of how the world evolves.
Humans learn world models by curiously exploring their environment, in the
process acquiring compact abstractions of high bandwidth sensory inputs, the
ability to plan across long temporal horizons, and an understanding of the
behavioral patterns of other agents. In this work, we study how to design such
a curiosity-driven Active World Model Learning (AWML) system. To do so, we
construct a curious agent building world models while visually exploring a 3D
physical environment rich with distillations of representative real-world
agents. We propose an AWML system driven by $\gamma$-Progress: a scalable and
effective learning progress-based curiosity signal. We show that
$\gamma$-Progress naturally gives rise to an exploration policy that directs
attention to complex but learnable dynamics in a balanced manner, thus
overcoming the "white noise problem". As a result, our $\gamma$-Progress-driven
controller achieves significantly higher AWML performance than baseline
controllers equipped with state-of-the-art exploration strategies such as
Random Network Distillation and Model Disagreement.
- Abstract(参考訳): 世界モデルは、世界がどのように進化するかを自己監視した予測モデルである。
人間は、自分の環境を探り、高帯域の感覚入力のコンパクトな抽象化、長期の時間的地平線を越えて計画する能力、そして他のエージェントの行動パターンを理解することによって、世界モデルを学ぶ。
本研究では,このような好奇心駆動型アクティブワールドモデル学習(AWML)システムの設計方法について検討する。
そこで我々は,代表的現実世界エージェントの蒸留に富んだ3次元物理環境を視覚的に探索しながら,世界モデルを構築する興味深いエージェントを構築する。
我々は,スケーラブルで効果的な学習プログレッシブ信号である\gamma$-progress を駆動する awml システムを提案する。
我々は自然に$\gamma$-Progressが、複雑だが学習可能な力学にバランスよく注意を向ける探索政策を生み出し、「ホワイトノイズ問題」を克服することを示した。
その結果,我々の$\gamma$-Progress-driven controllerは,ランダムネットワーク蒸留やモデル分解といった最先端の探索戦略を備えたベースラインコントローラよりもはるかに高いAWML性能を実現する。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation [29.349549097807916]
MoDem-V2は、非装備の現実世界でコンタクトリッチな操作を直接学習することができる。
実世界の安全性を尊重しながら、モデル学習におけるデモンストレーションを活用するための重要な要素を同定する。
論文 参考訳(メタデータ) (2023-09-25T15:51:29Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。