Fugu-MT 論文翻訳(概要): Guiding Pretraining in Reinforcement Learning with Large Language Models

論文の概要: Guiding Pretraining in Reinforcement Learning with Large Language Models

arxiv url: http://arxiv.org/abs/2302.06692v2
Date: Fri, 15 Sep 2023 02:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 18:47:14.399950
Title: Guiding Pretraining in Reinforcement Learning with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた強化学習における事前学習の指導
Authors: Yuqing Du, Olivia Watkins, Zihan Wang, C\'edric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, Jacob Andreas
Abstract要約: テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
参考スコア（独自算出の注目度）: 133.32146904055233
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. Intrinsically motivated exploration methods address this limitation by rewarding agents for visiting novel states or transitions, but these methods offer limited benefits in large environments where most discovered novelty is irrelevant for downstream tasks. We describe a method that uses background knowledge from text corpora to shape exploration. This method, called ELLM (Exploring with LLMs) rewards an agent for achieving goals suggested by a language model prompted with a description of the agent's current state. By leveraging large-scale language model pretraining, ELLM guides agents toward human-meaningful and plausibly useful behaviors without requiring a human in the loop. We evaluate ELLM in the Crafter game environment and the Housekeep robotic simulator, showing that ELLM-trained agents have better coverage of common-sense behaviors during pretraining and usually match or improve performance on a range of downstream tasks. Code available at https://github.com/yuqingd/ellm.
Abstract（参考訳）: 強化学習アルゴリズムは、通常、密集した形をした報酬関数の欠如に苦労する。本質的に動機づけられた探索方法は、新しい状態や遷移を訪れるエージェントに報酬を与えることでこの制限に対処するが、これらの方法は、最も発見されるノベルティが下流タスクに無関係な大きな環境では限定的な利点を提供する。本稿では,テキストコーパスの背景知識を用いた探索手法について述べる。このメソッドは ELLM (Exploring with LLMs) と呼ばれ、エージェントの現在の状態を記述した言語モデルによって提案された目標を達成するエージェントに報酬を与える。大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。本研究は,造形ゲーム環境およびハウスキープロボットシミュレータにおけるellmの評価を行い,学習中の共通感覚行動のカバレッジが向上し,通常,下流タスクにおけるパフォーマンスが向上することを示す。コードはhttps://github.com/yuqingd/ellm。

関連論文リスト

Beyond Syntax: Action Semantics Learning for App Agents [60.56331102288794]
アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。 ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
論文参考訳（メタデータ） (2025-06-21T12:08:19Z)
GoalLadder: Incremental Goal Discovery with Vision-Language Models [38.35578010611503]
視覚環境における単一言語命令からRLエージェントを学習する新しい手法を提案する。 GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。以前の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。
論文参考訳（メタデータ） (2025-06-19T15:28:27Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。 API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文参考訳（メタデータ） (2024-11-29T08:47:04Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models [10.359008237358603]
対話型環境における大規模言語モデル(LLM)を用いたリアルタスクの計画と実行が,AI手法の新たなフロンティアとなっている。 LLMの計画と動作のための状態追跡によるチェーン・オブ・シントの強化を目的とした,数発のインコンテキスト学習のみに基づく簡易な手法を提案する。
論文参考訳（メタデータ） (2024-09-21T05:54:35Z)
Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。 JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文参考訳（メタデータ） (2024-09-06T21:00:57Z)
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文参考訳（メタデータ） (2024-03-18T17:51:16Z)
Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文参考訳（メタデータ） (2023-10-26T18:32:05Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Selective Perception: Optimizing State Descriptions with Reinforcement Learning for Language Model Actors [40.18762220245365]
大規模言語モデル(LLM)は、ロボット工学やゲームといった分野における逐次的な意思決定タスクのためにアクターとして応用されている。これまでの研究は、LLMアクターが言語を介してどのような環境状態情報を提供するかを探ることはほとんどない。簡潔な状態記述を自動的に選択するBLINDER(Bref Language Inputs for Decision-making Responses)を提案する。
論文参考訳（メタデータ） (2023-07-21T22:02:50Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (2022-01-18T18:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。