論文の概要: O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.14403v2
- Date: Mon, 25 Dec 2023 04:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:44:07.044594
- Title: O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models
- Title(参考訳): O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留
- Authors: Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann,
Deepeka Garg, Sumitra Ganesh
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、逐次的意思決定問題を解決する上で有望な性能を示した。
LLMエージェントのコンテキスト内学習性能を向上させるために,オフラインデータを大規模に活用するオフライン学習フレームワークを提案する。
次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。
- 参考スコア(独自算出の注目度): 16.91329676173649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have exhibited promising
performance in solving sequential decision-making problems. By imitating
few-shot examples provided in the prompts (i.e., in-context learning), an LLM
agent can interact with an external environment and complete given tasks
without additional training. However, such few-shot examples are often
insufficient to generate high-quality solutions for complex and long-horizon
tasks, while the limited context length cannot consume larger-scale
demonstrations. To this end, we propose an offline learning framework that
utilizes offline data at scale (e.g, logs of human interactions) to facilitate
the in-context learning performance of LLM agents. We formally define
LLM-powered policies with both text-based approaches and code-based approaches.
We then introduce an Offline Data-driven Discovery and Distillation (O3D)
framework to improve LLM-powered policies without finetuning. O3D automatically
discovers reusable skills and distills generalizable knowledge across multiple
tasks based on offline interaction data, advancing the capability of solving
downstream tasks. Empirical results under two interactive decision-making
benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the
decision-making capabilities of LLMs through the offline discovery and
distillation process, and consistently outperform baselines across various LLMs
with both text-based-policy and code-based-policy.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。
プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。
しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。
そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。
テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。
次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。
2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。
関連論文リスト
- Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Harnessing Scalable Transactional Stream Processing for Managing Large
Language Models [Vision] [4.553891255178496]
大規模言語モデル(LLM)は、広範囲のアプリケーションにまたがって素晴らしいパフォーマンスを示している。
本稿では,トランザクションストリーム処理(TSP)とLLM管理を統合する革命的フレームワークであるTStreamLLMを紹介する。
リアルタイムの患者モニタリングやインテリジェントなトラフィック管理といった実践的なユースケースを通じて、その可能性を示す。
論文 参考訳(メタデータ) (2023-07-17T04:01:02Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。