Fugu-MT 論文翻訳(概要): Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

論文の概要: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.02662v4
Date: Thu, 17 Oct 2024 08:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.627237
Title: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
Title（参考訳）: オンライン強化学習による対話環境における大規模言語モデルの構築
Authors: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer,
Abstract要約: 機能的接地によるアライメントを実現するためのアプローチ(GLAM)について検討する。エージェントが環境と対話するにつれて、段階的に更新されるポリシーとしてLLMを使用するエージェントを考える。機能的グラウンドの高レベルな形態と空間的・ナビゲーションタスクのセットを研究するために設計された対話型テキスト環境を用いて,いくつかの科学的問題を研究する。
参考スコア（独自算出の注目度）: 31.632424124624887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works successfully leveraged Large Language Models' (LLM) abilities to capture abstract knowledge about world's physics to solve decision-making problems. Yet, the alignment between LLMs' knowledge and the environment can be wrong and limit functional competence due to lack of grounding. In this paper, we study an approach (named GLAM) to achieve this alignment through functional grounding: we consider an agent using an LLM as a policy that is progressively updated as the agent interacts with the environment, leveraging online Reinforcement Learning to improve its performance to solve goals. Using an interactive textual environment designed to study higher-level forms of functional grounding, and a set of spatial and navigation tasks, we study several scientific questions: 1) Can LLMs boost sample efficiency for online learning of various RL tasks? 2) How can it boost different forms of generalization? 3) What is the impact of online learning? We study these questions by functionally grounding several variants (size, architecture) of FLAN-T5.
Abstract（参考訳）: 最近の研究は、Large Language Models(LLM)の能力を利用して、世界の物理学に関する抽象的な知識を捉え、意思決定の問題を解決することに成功している。しかし、LLMの知識と環境との整合性は誤りであり、基盤の欠如により機能的能力を制限する。本稿では,LLMを用いたエージェントを,エージェントが環境と対話するときに段階的に更新されるポリシーとして検討し,オンライン強化学習を活用して,目標を達成するための性能向上を図る。高レベルな機能的接地と空間的・ナビゲーションタスクのセットを研究するために設計されたインタラクティブなテキスト環境を用いて、いくつかの科学的疑問を考察する。 1)LLMは、様々なRLタスクのオンライン学習において、サンプル効率を高めることができるか? 2) 一般化の異なる形態をどのように促進するか。 3)オンライン学習の影響は? FLAN-T5 のいくつかの変種 (サイズ, 構造) を機能的基盤として検討する。

関連論文リスト

Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL [28.82521610729606]
大規模言語モデル(LLM)は、すべてのタスク関連情報が事前に利用できる場合、高いパフォーマンスを達成する。 ORBITはマルチタスク・マルチタスク・メタ強化学習フレームワークで,文脈におけるインタラクションから学習するためにLDMを訓練する。メタトレーニングの後、比較的小さなオープンソースモデル(Qwen3-14B)は、完全に見えない環境でコンテキスト内オンライン学習を大幅に改善することを示した。
論文参考訳（メタデータ） (2026-02-03T23:53:05Z)
OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding [53.33067495235966]
OnlineSIは、ビデオストリームが与えられた周囲の空間的理解を改善するためのフレームワークである。私たちの中核となる考え方は、過去の観測を維持するために有限空間記憶を維持することです。さらに3Dポイントのクラウド情報を意味情報と統合し、MLLMがシーン内のオブジェクトをよりよく見つけ、識別するのに役立つ。
論文参考訳（メタデータ） (2026-01-23T08:17:57Z)
Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文参考訳（メタデータ） (2025-10-29T12:08:07Z)
Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文参考訳（メタデータ） (2025-06-10T18:36:31Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文参考訳（メタデータ） (2024-04-29T12:16:08Z)
Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文参考訳（メタデータ） (2024-04-14T13:19:40Z)
True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文参考訳（メタデータ） (2024-01-25T13:03:20Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)
Inner Monologue: Embodied Reasoning through Planning with Language Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文参考訳（メタデータ） (2022-07-12T15:20:48Z)
Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2022-02-01T07:51:24Z)
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文参考訳（メタデータ） (2020-03-10T20:41:24Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。