論文の概要: Denoised MDPs: Learning World Models Better Than the World Itself
- arxiv url: http://arxiv.org/abs/2206.15477v1
- Date: Thu, 30 Jun 2022 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:36:22.887068
- Title: Denoised MDPs: Learning World Models Better Than the World Itself
- Title(参考訳): dnoized mdps: 世界そのものよりも優れた世界モデルを学ぶ
- Authors: Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy
Zhang, Yuandong Tian
- Abstract要約: 本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
- 参考スコア(独自算出の注目度): 94.74665254213588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to separate signal from noise, and reason with clean
abstractions, is critical to intelligence. With this ability, humans can
efficiently perform real world tasks without considering all possible nuisance
factors.How can artificial agents do the same? What kind of information can
agents safely discard as noises?
In this work, we categorize information out in the wild into four types based
on controllability and relation with reward, and formulate useful information
as that which is both controllable and reward-relevant. This framework
clarifies the kinds information removed by various prior work on representation
learning in reinforcement learning (RL), and leads to our proposed approach of
learning a Denoised MDP that explicitly factors out certain noise distractors.
Extensive experiments on variants of DeepMind Control Suite and RoboDesk
demonstrate superior performance of our denoised world model over using raw
observations alone, and over prior works, across policy optimization control
tasks as well as the non-control task of joint position regression.
- Abstract(参考訳): 信号とノイズを分離し、クリーンな抽象化で推論する能力は、知性にとって不可欠である。
この能力により、人間はあらゆるニュアンス要因を考慮せずに、現実世界のタスクを効率的に実行できる。
エージェントはどんな情報を安全にノイズとして捨てられるのか?
本研究は,自然界の情報を,制御可能性と報酬との関係に基づいて4種類に分類し,制御可能かつ報酬関連のある情報として有用な情報を定式化する。
この枠組みは、強化学習(RL)における表現学習における様々な先行研究によって取り除かれた種類情報を明確化し、特定のノイズ障害を明示的に判断する認知型MDPを学習する手法を提案する。
DeepMind Control Suite と RoboDesk の変種に関する大規模な実験は、政策最適化制御タスクだけでなく、関節位置回帰の非制御タスクにおいても、生の観測だけでなく、以前の作業よりも優れた性能を示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Optimal Interpretability-Performance Trade-off of Classification Trees
with Black-Box Reinforcement Learning [0.0]
AIモデルの解釈可能性により、モデルの信頼性を構築するためのユーザ安全チェックが可能になる。
決定木(DT)は、学習したモデルに関するグローバルな見解を提供し、与えられたデータを分類するのに重要な機能の役割を明確に概説する。
コンパクトツリーを学習するために、最近DTの空間を探求する強化学習フレームワークが提案されている。
論文 参考訳(メタデータ) (2023-04-11T09:43:23Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。