論文の概要: Is Imitation All You Need? Generalized Decision-Making with Dual-Phase
Training
- arxiv url: http://arxiv.org/abs/2307.07909v3
- Date: Mon, 9 Oct 2023 08:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:48:07.252325
- Title: Is Imitation All You Need? Generalized Decision-Making with Dual-Phase
Training
- Title(参考訳): イミテーションは必要か?
デュアルフェーズトレーニングによる一般化意思決定
- Authors: Yao Wei and Yanchao Sun and Ruijie Zheng and Sai Vemprala and Rogerio
Bonatti and Shuhang Chen and Ratnesh Madaan and Zhongjie Ba and Ashish Kapoor
and Shuang Ma
- Abstract要約: さまざまな意思決定タスクに対処するために設計された汎用エージェントであるDualMindを紹介する。
DualMindは、人間が世界でどのように行動するかをエミュレートする新しい「デュアルフェーズ」トレーニング戦略を使用している。
我々は、MetaWorldとHabitatのDualMindを広範な実験により評価し、その優れた一般化性を実証した。
- 参考スコア(独自算出の注目度): 41.78276191628054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DualMind, a generalist agent designed to tackle various
decision-making tasks that addresses challenges posed by current methods, such
as overfitting behaviors and dependence on task-specific fine-tuning. DualMind
uses a novel "Dual-phase" training strategy that emulates how humans learn to
act in the world. The model first learns fundamental common knowledge through a
self-supervised objective tailored for control tasks and then learns how to
make decisions based on different contexts through imitating behaviors
conditioned on given prompts. DualMind can handle tasks across domains, scenes,
and embodiments using just a single set of model weights and can execute
zero-shot prompting without requiring task-specific fine-tuning. We evaluate
DualMind on MetaWorld and Habitat through extensive experiments and demonstrate
its superior generalizability compared to previous techniques, outperforming
other generalist agents by over 50$\%$ and 70$\%$ on Habitat and MetaWorld,
respectively. On the 45 tasks in MetaWorld, DualMind achieves over 30 tasks at
a 90$\%$ success rate.
- Abstract(参考訳): 本稿では,現在の手法が抱える課題,例えば過剰適合行動やタスク固有の微調整に依存する問題に対処する,さまざまな意思決定タスクに取り組むためのジェネラリストエージェントであるdualmindを紹介する。
DualMindは、人間が世界でどのように行動するかをエミュレートする新しい「デュアルフェーズ」トレーニング戦略を使用している。
モデルはまず、制御タスク用に調整された自己教師付き目標を通じて基本的な共通知識を学び、その後、与えられたプロンプトに基づいて条件づけされた行動を模倣して、異なるコンテキストに基づいて意思決定を行う方法を学ぶ。
DualMindは1セットのモデル重みだけで、ドメイン、シーン、実施状況のタスクを処理でき、タスク固有の微調整を必要とせずにゼロショットプロンプトを実行することができる。
我々は,MetaWorld と Habitat の DualMind を広範囲な実験により評価し,従来の手法に比べて優れた一般化性を示し,Habitat と MetaWorld の 70$\% 以上のジェネラリストエージェントをそれぞれ50$\% 以上上回った。
MetaWorldの45のタスクでは、DualMindは90$\%の成功率で30以上のタスクを達成している。
関連論文リスト
- Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills [17.666749042008178]
本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
論文 参考訳(メタデータ) (2023-12-11T16:50:14Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - Continual Robot Learning using Self-Supervised Task Inference [19.635428830237842]
新しいタスクを継続的に学習するための自己教師型タスク推論手法を提案する。
我々は、行動マッチング型自己教師型学習目標を用いて、新しいタスク推論ネットワーク(TINet)を訓練する。
マルチタスクポリシはTINet上に構築され、タスクよりもパフォーマンスを最適化するために強化学習でトレーニングされている。
論文 参考訳(メタデータ) (2023-09-10T09:32:35Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Domain-aware Self-supervised Pre-training for Label-Efficient Meme
Analysis [29.888546964947537]
ミーム分析のための2つの自己教師付き事前学習手法を提案する。
まず,事前学習中に,既成のマルチモーダルヘイト音声データを用いる。
第二に、複数の専門用語タスクを組み込んだ自己教師型学習を行う。
論文 参考訳(メタデータ) (2022-09-29T10:00:29Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。