Fugu-MT 論文翻訳(概要): LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers

論文の概要: LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers

arxiv url: http://arxiv.org/abs/2312.08958v1
Date: Thu, 14 Dec 2023 14:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 21:48:19.759043
Title: LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers
Title（参考訳）: LiFT:教師としての基盤モデルによる教師なし強化学習
Authors: Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim, Karl Pertsch
Abstract要約: 本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
参考スコア（独自算出の注目度）: 59.69716962256727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a framework that leverages foundation models as teachers, guiding a reinforcement learning agent to acquire semantically meaningful behavior without human feedback. In our framework, the agent receives task instructions grounded in a training environment from large language models. Then, a vision-language model guides the agent in learning the multi-task language-conditioned policy by providing reward feedback. We demonstrate that our method can learn semantically meaningful skills in a challenging open-ended MineDojo environment while prior unsupervised skill discovery methods struggle. Additionally, we discuss observed challenges of using off-the-shelf foundation models as teachers and our efforts to address them.
Abstract（参考訳）: 本稿では,基礎モデルを教師として活用する枠組みを提案し,強化学習エージェントに,人間フィードバックを伴わずに意味的に意味のある行動を得るように指導する。私たちのフレームワークでは、エージェントは大きな言語モデルからトレーニング環境に基礎を置いたタスク命令を受け取ります。そして、視覚言語モデルにより、報酬フィードバックを提供することでマルチタスク言語条件ポリシーを学ぶエージェントをガイドする。提案手法は,事前教師なしのスキル発見手法が苦闘しながら,オープン・エンド・ミネドジョ環境において意味的に有意義なスキルを学習できることを実証する。さらに,市販の基礎モデルを教師として活用する上での課題とその解決に向けた取り組みについて考察した。

関連論文リスト

Learning Instruction-Following Policies through Open-Ended Instruction Relabeling with Large Language Models [37.67925131391676]
本稿では,これまで収集したエージェントの軌跡を振り返ってオープンエンド命令を自動生成する手法を提案する。我々の中核的な考え方は、エージェントが暗黙的に達成した意味のあるサブタスクを識別することで、LLMを用いて、軌道変更の失敗を回避することである。我々は,本提案手法を課題であるCraftax環境において実証的に評価し,サンプル効率,命令カバレッジ,全体的な政策性能の明確な改善を実証した。
論文参考訳（メタデータ） (2025-06-24T23:49:28Z)
Acquiring Grounded Representations of Words with Situated Interactive Instruction [4.049850026698638]
本稿では,人間インストラクターとの混合開始的,位置的相互作用から単語の接地表現を得る手法を提案する。この研究は、知覚、意味、手続き的知識を含む多様な種類の知識の獲得と、基礎となる意味の学習に焦点を当てている。
論文参考訳（メタデータ） (2025-02-28T06:04:52Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Revealing the Inherent Instructability of Pre-Trained Language Models [9.504992236994697]
本稿では,RT(Response Tuning)が命令とそれに対応する対応マッピングを命令チューニングから取り除くことを示す。実験の結果、RTは応答のみに基づいて訓練され、広範囲の指示に効果的に反応し、訓練対象に近づきやすいことを示すことができた。
論文参考訳（メタデータ） (2024-10-03T13:15:19Z)
Solving Dialogue Grounding Embodied Task in a Simulated Environment using Further Masked Language Modeling [0.0]
提案手法は,言語モデルを用いたSOTA(State-of-the-art)手法によるタスク理解を強化するために,言語モデリングを用いる。実験の結果,提案手法が優れていることを示す証拠が得られた。
論文参考訳（メタデータ） (2023-06-21T17:17:09Z)
Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned Reinforcement Learning [8.715518445626826]
学習者は、指示が対象の特徴を明瞭に参照した場合、教師の意図を誤解することができる。認知科学から派生した2つの概念が、それらの参照あいまいさを解決するのにどのように役立つかを研究する。これらのアイデアを、シミュレーションロボットタスクに2つの人工エージェントを組み込んだ教師/学習者の設定に適用する。
論文参考訳（メタデータ） (2022-09-26T15:07:59Z)
Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文参考訳（メタデータ） (2022-03-19T03:22:57Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Ask Your Humans: Using Human Instructions to Improve Generalization in Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。人間のデモは、最も複雑なタスクを解決するのに役立ちます。また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文参考訳（メタデータ） (2020-11-01T14:39:46Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)
Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文参考訳（メタデータ） (2020-06-22T10:22:08Z)
Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文参考訳（メタデータ） (2020-06-07T06:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。