論文の概要: LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers
- arxiv url: http://arxiv.org/abs/2312.08958v1
- Date: Thu, 14 Dec 2023 14:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:48:19.759043
- Title: LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers
- Title(参考訳): LiFT:教師としての基盤モデルによる教師なし強化学習
- Authors: Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim,
Karl Pertsch
- Abstract要約: 本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
- 参考スコア(独自算出の注目度): 59.69716962256727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a framework that leverages foundation models as teachers, guiding
a reinforcement learning agent to acquire semantically meaningful behavior
without human feedback. In our framework, the agent receives task instructions
grounded in a training environment from large language models. Then, a
vision-language model guides the agent in learning the multi-task
language-conditioned policy by providing reward feedback. We demonstrate that
our method can learn semantically meaningful skills in a challenging open-ended
MineDojo environment while prior unsupervised skill discovery methods struggle.
Additionally, we discuss observed challenges of using off-the-shelf foundation
models as teachers and our efforts to address them.
- Abstract(参考訳): 本稿では,基礎モデルを教師として活用する枠組みを提案し,強化学習エージェントに,人間フィードバックを伴わずに意味的に意味のある行動を得るように指導する。
私たちのフレームワークでは、エージェントは大きな言語モデルからトレーニング環境に基礎を置いたタスク命令を受け取ります。
そして、視覚言語モデルにより、報酬フィードバックを提供することでマルチタスク言語条件ポリシーを学ぶエージェントをガイドする。
提案手法は,事前教師なしのスキル発見手法が苦闘しながら,オープン・エンド・ミネドジョ環境において意味的に有意義なスキルを学習できることを実証する。
さらに,市販の基礎モデルを教師として活用する上での課題とその解決に向けた取り組みについて考察した。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives [2.4392539322920763]
言語指導による目標達成型強化学習の課題を解決するための重要なステップである。
本稿では,ビデオテキスト検索文にヒントを得た補助的損失関数を用いた新たなフレームワークとしてCARELを提案する。
実験の結果,マルチモーダル強化学習問題において,本フレームワークのより優れたサンプル効率と系統的な一般化が示唆された。
論文 参考訳(メタデータ) (2024-11-29T15:49:06Z) - Revealing the Inherent Instructability of Pre-Trained Language Models [9.504992236994697]
本稿では,RT(Response Tuning)が命令とそれに対応する対応マッピングを命令チューニングから取り除くことを示す。
実験の結果、RTは応答のみに基づいて訓練され、広範囲の指示に効果的に反応し、訓練対象に近づきやすいことを示すことができた。
論文 参考訳(メタデータ) (2024-10-03T13:15:19Z) - Solving Dialogue Grounding Embodied Task in a Simulated Environment
using Further Masked Language Modeling [0.0]
提案手法は,言語モデルを用いたSOTA(State-of-the-art)手法によるタスク理解を強化するために,言語モデリングを用いる。
実験の結果,提案手法が優れていることを示す証拠が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:17:09Z) - Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned
Reinforcement Learning [8.715518445626826]
学習者は、指示が対象の特徴を明瞭に参照した場合、教師の意図を誤解することができる。
認知科学から派生した2つの概念が、それらの参照あいまいさを解決するのにどのように役立つかを研究する。
これらのアイデアを、シミュレーションロボットタスクに2つの人工エージェントを組み込んだ教師/学習者の設定に適用する。
論文 参考訳(メタデータ) (2022-09-26T15:07:59Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。