論文の概要: Active World Model Learning with Progress Curiosity
- arxiv url: http://arxiv.org/abs/2007.07853v1
- Date: Wed, 15 Jul 2020 17:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-10 04:34:40.558447
- Title: Active World Model Learning with Progress Curiosity
- Title(参考訳): プログレッシブ好奇心を用いたアクティブワールドモデル学習
- Authors: Kuno Kim, Megumi Sano, Julian De Freitas, Nick Haber, Daniel Yamins
- Abstract要約: 世界モデルは、世界がどのように進化するかの自己監督的な予測モデルである。
本研究では,このような好奇心駆動型アクティブワールドモデル学習システムの設計方法について検討する。
我々は、スケーラブルで効果的な学習進捗に基づく好奇心信号である$gamma$-Progressによって駆動されるAWMLシステムを提案する。
- 参考スコア(独自算出の注目度): 12.077052764803163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are self-supervised predictive models of how the world evolves.
Humans learn world models by curiously exploring their environment, in the
process acquiring compact abstractions of high bandwidth sensory inputs, the
ability to plan across long temporal horizons, and an understanding of the
behavioral patterns of other agents. In this work, we study how to design such
a curiosity-driven Active World Model Learning (AWML) system. To do so, we
construct a curious agent building world models while visually exploring a 3D
physical environment rich with distillations of representative real-world
agents. We propose an AWML system driven by $\gamma$-Progress: a scalable and
effective learning progress-based curiosity signal. We show that
$\gamma$-Progress naturally gives rise to an exploration policy that directs
attention to complex but learnable dynamics in a balanced manner, thus
overcoming the "white noise problem". As a result, our $\gamma$-Progress-driven
controller achieves significantly higher AWML performance than baseline
controllers equipped with state-of-the-art exploration strategies such as
Random Network Distillation and Model Disagreement.
- Abstract(参考訳): 世界モデルは、世界がどのように進化するかを自己監視した予測モデルである。
人間は、自分の環境を探り、高帯域の感覚入力のコンパクトな抽象化、長期の時間的地平線を越えて計画する能力、そして他のエージェントの行動パターンを理解することによって、世界モデルを学ぶ。
本研究では,このような好奇心駆動型アクティブワールドモデル学習(AWML)システムの設計方法について検討する。
そこで我々は,代表的現実世界エージェントの蒸留に富んだ3次元物理環境を視覚的に探索しながら,世界モデルを構築する興味深いエージェントを構築する。
我々は,スケーラブルで効果的な学習プログレッシブ信号である\gamma$-progress を駆動する awml システムを提案する。
我々は自然に$\gamma$-Progressが、複雑だが学習可能な力学にバランスよく注意を向ける探索政策を生み出し、「ホワイトノイズ問題」を克服することを示した。
その結果,我々の$\gamma$-Progress-driven controllerは,ランダムネットワーク蒸留やモデル分解といった最先端の探索戦略を備えたベースラインコントローラよりもはるかに高いAWML性能を実現する。
関連論文リスト
- Improving World Models using Deep Supervision with Linear Probes [0.0]
本稿では,ネットワーク訓練されたエンドツーエンドにおける世界モデル開発を奨励し,次の観測を予測するための深層監視手法について検討する。
本研究では,Flappy Birdゲームに基づく実験環境を用いて,ネットワークの損失関数に線形プローブ成分を加える効果について検討する。
実験により, この監視技術は, トレーニングとテスト性能の両方を改善し, トレーニング安定性を向上し, より容易な世界機能を実現することを示した。
論文 参考訳(メタデータ) (2025-04-04T18:35:21Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Curiosity-Driven Imagination: Discovering Plan Operators and Learning Associated Policies for Open-World Adaptation [7.406934849952094]
動的で不確実な環境に素早く適応することは、ロボット工学における大きな課題である。
従来のタスク・アンド・モーション・プランニングアプローチは、予期せぬ変化に対処し、適応するときにデータ非効率であり、学習中に世界モデルを活用するのに苦労する。
我々はこの問題を、2つのモデルを統合するハイブリッド計画学習システムで解決する: 遷移を学習し、固有の好奇性モジュール(ICM)による探索を駆動する低レベルニューラルネットワークベースモデル。
シーケンシャル・ノベルティ・インジェクションを用いたロボット操作領域における評価は、我々のアプローチがより高速に収束し、最先端のハイブリッド手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-03-06T20:02:26Z) - Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning [2.5749046466046903]
強化学習(Reinforcement Learning, RL)では、世界モデルはエージェントの行動に応じて環境がどのように進化するかを捉えることを目的としている。
潜在空間内での夢のプロセスの実行は、より少ない環境ステップでのトレーニングを可能にすることを示す。
我々は、GWとWorld Modelsの組み合わせは、RLエージェントの意思決定を改善する大きな可能性を秘めていると結論づける。
論文 参考訳(メタデータ) (2025-02-28T15:24:17Z) - SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation [29.349549097807916]
MoDem-V2は、非装備の現実世界でコンタクトリッチな操作を直接学習することができる。
実世界の安全性を尊重しながら、モデル学習におけるデモンストレーションを活用するための重要な要素を同定する。
論文 参考訳(メタデータ) (2023-09-25T15:51:29Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。