論文の概要: Goal-Aware Prediction: Learning to Model What Matters
- arxiv url: http://arxiv.org/abs/2007.07170v2
- Date: Mon, 10 Aug 2020 23:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:22:27.862815
- Title: Goal-Aware Prediction: Learning to Model What Matters
- Title(参考訳): 目標認識予測: 重要事項をモデル化する学習
- Authors: Suraj Nair, Silvio Savarese, Chelsea Finn
- Abstract要約: 学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
- 参考スコア(独自算出の注目度): 105.43098326577434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned dynamics models combined with both planning and policy learning
algorithms have shown promise in enabling artificial agents to learn to perform
many diverse tasks with limited supervision. However, one of the fundamental
challenges in using a learned forward dynamics model is the mismatch between
the objective of the learned model (future state reconstruction), and that of
the downstream planner or policy (completing a specified task). This issue is
exacerbated by vision-based control tasks in diverse real-world environments,
where the complexity of the real world dwarfs model capacity. In this paper, we
propose to direct prediction towards task relevant information, enabling the
model to be aware of the current task and encouraging it to only model relevant
quantities of the state space, resulting in a learning objective that more
closely matches the downstream task. Further, we do so in an entirely
self-supervised manner, without the need for a reward function or image labels.
We find that our method more effectively models the relevant parts of the scene
conditioned on the goal, and as a result outperforms standard task-agnostic
dynamics models and model-free reinforcement learning.
- Abstract(参考訳): 学習されたダイナミクスモデルと計画と政策学習アルゴリズムを組み合わせることで、人工エージェントが限られた監督で多くの多様なタスクを実行できることが期待できる。
しかし、学習したフォワードダイナミクスモデルを使用する際の根本的な課題の1つは、学習したモデルの目的(将来の状態の再構築)と下流のプランナーやポリシー(特定のタスクを補完する)とのミスマッチである。
この問題は、現実世界の複雑さがモデル容量を弱める様々な現実世界環境におけるビジョンベースの制御タスクによって悪化する。
本稿では,タスク関連情報への直接的予測を提案し,モデルが現在のタスクを認識できるようにし,状態空間の関連量のみをモデル化するように促すことにより,下流タスクとより密に一致する学習目標を導出する。
さらに、報酬関数や画像ラベルを必要とせずに、完全に自己管理的な方法で実施する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - MoMA: Momentum Contrastive Learning with Multi-head Attention-based
Knowledge Distillation for Histopathology Image Analysis [5.396167537615578]
計算病理学における特定のタスクに関して、品質データの欠如は一般的な問題である。
そこで本研究では,既存のモデルを用いて新たなターゲットモデルを学習する知識蒸留手法を提案する。
本研究では,教師モデルから学習対象モデルを学習するために,学習者・教師の枠組みを用いる。
論文 参考訳(メタデータ) (2023-08-31T08:54:59Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Planning from Pixels using Inverse Dynamics Models [44.16528631970381]
本稿では,タスク完了にともなう未来の行動の順序を学習することで,潜在世界モデルを学ぶ新しい方法を提案する。
本研究では,視覚目標達成タスクの課題に対する提案手法の評価を行い,従来のモデルフリー手法と比較して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-12-04T06:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。