論文の概要: LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers
- arxiv url: http://arxiv.org/abs/2312.08958v1
- Date: Thu, 14 Dec 2023 14:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:48:19.759043
- Title: LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers
- Title(参考訳): LiFT:教師としての基盤モデルによる教師なし強化学習
- Authors: Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim,
Karl Pertsch
- Abstract要約: 本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
- 参考スコア(独自算出の注目度): 59.69716962256727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a framework that leverages foundation models as teachers, guiding
a reinforcement learning agent to acquire semantically meaningful behavior
without human feedback. In our framework, the agent receives task instructions
grounded in a training environment from large language models. Then, a
vision-language model guides the agent in learning the multi-task
language-conditioned policy by providing reward feedback. We demonstrate that
our method can learn semantically meaningful skills in a challenging open-ended
MineDojo environment while prior unsupervised skill discovery methods struggle.
Additionally, we discuss observed challenges of using off-the-shelf foundation
models as teachers and our efforts to address them.
- Abstract(参考訳): 本稿では,基礎モデルを教師として活用する枠組みを提案し,強化学習エージェントに,人間フィードバックを伴わずに意味的に意味のある行動を得るように指導する。
私たちのフレームワークでは、エージェントは大きな言語モデルからトレーニング環境に基礎を置いたタスク命令を受け取ります。
そして、視覚言語モデルにより、報酬フィードバックを提供することでマルチタスク言語条件ポリシーを学ぶエージェントをガイドする。
提案手法は,事前教師なしのスキル発見手法が苦闘しながら,オープン・エンド・ミネドジョ環境において意味的に有意義なスキルを学習できることを実証する。
さらに,市販の基礎モデルを教師として活用する上での課題とその解決に向けた取り組みについて考察した。
関連論文リスト
- Solving Dialogue Grounding Embodied Task in a Simulated Environment
using Further Masked Language Modeling [0.0]
提案手法は,言語モデルを用いたSOTA(State-of-the-art)手法によるタスク理解を強化するために,言語モデリングを用いる。
実験の結果,提案手法が優れていることを示す証拠が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:17:09Z) - Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned
Reinforcement Learning [8.715518445626826]
学習者は、指示が対象の特徴を明瞭に参照した場合、教師の意図を誤解することができる。
認知科学から派生した2つの概念が、それらの参照あいまいさを解決するのにどのように役立つかを研究する。
これらのアイデアを、シミュレーションロボットタスクに2つの人工エージェントを組み込んだ教師/学習者の設定に適用する。
論文 参考訳(メタデータ) (2022-09-26T15:07:59Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。