Fugu-MT 論文翻訳(概要): O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models

論文の概要: O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models

arxiv url: http://arxiv.org/abs/2310.14403v2
Date: Mon, 25 Dec 2023 04:29:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 21:44:07.044594
Title: O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models
Title（参考訳）: O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留
Authors: Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann, Deepeka Garg, Sumitra Ganesh
Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、逐次的意思決定問題を解決する上で有望な性能を示した。 LLMエージェントのコンテキスト内学習性能を向上させるために,オフラインデータを大規模に活用するオフライン学習フレームワークを提案する。次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。
参考スコア（独自算出の注目度）: 16.91329676173649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to facilitate the in-context learning performance of LLM agents. We formally define LLM-powered policies with both text-based approaches and code-based approaches. We then introduce an Offline Data-driven Discovery and Distillation (O3D) framework to improve LLM-powered policies without finetuning. O3D automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs with both text-based-policy and code-based-policy.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。 O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。 2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。

関連論文リスト

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文参考訳（メタデータ） (2025-05-06T04:51:57Z)
LANID: LLM-assisted New Intent Discovery [18.15557766598695]
新しいIntent Discovery(NID)は、既存のものを認識する能力を維持しながら、新しい意図を識別することを目的とした重要なタスクである。 TODSを新しい意図に適応しようとするこれまでの努力は、意味表現の不十分さに悩まされてきた。我々は,大規模言語モデルを用いた軽量NIDエンコーダのセマンティック表現を強化するフレームワークであるLANIDを提案する。
論文参考訳（メタデータ） (2025-03-31T05:34:32Z)
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions [9.344348861402928]
MemoryCodeは、無関係な情報の中で単純なコーディング命令を追跡し実行するためのLarge Language Modelsの機能をテストするために設計されたデータセットである。その結果,LLMの基本的な制限が強調され,長期的相互作用において効果的に協調する能力が制限された。
論文参考訳（メタデータ） (2025-02-19T14:58:04Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
論文参考訳（メタデータ） (2024-08-24T05:03:08Z)
Practical Unlearning for Large Language Models [23.515444452866404]
機械学習(MU)は、これらの問題に対処するための有望なソリューションとして登場した。 MUは通常、実用性を維持するために元のトレーニングデータへの完全なアクセスを前提とします。既存のLLMアンラーニング手法は、望ましくないデータアンラーニングに最も影響を受けるデータへのアクセスを前提としていることが多い。我々は,これらの課題を克服し,実践的なLLMアンラーニングを実現するためのO3フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-14T14:26:17Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。