論文の概要: O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.14403v2
- Date: Mon, 25 Dec 2023 04:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:44:07.044594
- Title: O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models
- Title(参考訳): O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留
- Authors: Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann,
Deepeka Garg, Sumitra Ganesh
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、逐次的意思決定問題を解決する上で有望な性能を示した。
LLMエージェントのコンテキスト内学習性能を向上させるために,オフラインデータを大規模に活用するオフライン学習フレームワークを提案する。
次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。
- 参考スコア(独自算出の注目度): 16.91329676173649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have exhibited promising
performance in solving sequential decision-making problems. By imitating
few-shot examples provided in the prompts (i.e., in-context learning), an LLM
agent can interact with an external environment and complete given tasks
without additional training. However, such few-shot examples are often
insufficient to generate high-quality solutions for complex and long-horizon
tasks, while the limited context length cannot consume larger-scale
demonstrations. To this end, we propose an offline learning framework that
utilizes offline data at scale (e.g, logs of human interactions) to facilitate
the in-context learning performance of LLM agents. We formally define
LLM-powered policies with both text-based approaches and code-based approaches.
We then introduce an Offline Data-driven Discovery and Distillation (O3D)
framework to improve LLM-powered policies without finetuning. O3D automatically
discovers reusable skills and distills generalizable knowledge across multiple
tasks based on offline interaction data, advancing the capability of solving
downstream tasks. Empirical results under two interactive decision-making
benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the
decision-making capabilities of LLMs through the offline discovery and
distillation process, and consistently outperform baselines across various LLMs
with both text-based-policy and code-based-policy.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。
プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。
しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。
そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。
テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。
次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。
2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。
当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
論文 参考訳(メタデータ) (2024-08-24T05:03:08Z) - Practical Unlearning for Large Language Models [23.515444452866404]
機械学習(MU)は、これらの問題に対処するための有望なソリューションとして登場した。
MUは通常、実用性を維持するために元のトレーニングデータへの完全なアクセスを前提とします。
既存のLLMアンラーニング手法は、望ましくないデータアンラーニングに最も影響を受けるデータへのアクセスを前提としていることが多い。
我々は,これらの課題を克服し,実践的なLLMアンラーニングを実現するためのO3フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-14T14:26:17Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。