論文の概要: EVOLvE: Evaluating and Optimizing LLMs For Exploration
- arxiv url: http://arxiv.org/abs/2410.06238v1
- Date: Tue, 8 Oct 2024 17:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:21:03.920723
- Title: EVOLvE: Evaluating and Optimizing LLMs For Exploration
- Title(参考訳): EVOLvE: 探索のためのLLMの評価と最適化
- Authors: Allen Nie, Yi Su, Bo Chang, Jonathan N. Lee, Ed H. Chi, Quoc V. Le, Minmin Chen,
- Abstract要約: 大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
- 参考スコア(独自算出の注目度): 76.66831821738927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their success in many domains, large language models (LLMs) remain under-studied in scenarios requiring optimal decision-making under uncertainty. This is crucial as many real-world applications, ranging from personalized recommendations to healthcare interventions, demand that LLMs not only predict but also actively learn to make optimal decisions through exploration. In this work, we measure LLMs' (in)ability to make optimal decisions in bandits, a state-less reinforcement learning setting relevant to many applications. We develop a comprehensive suite of environments, including both context-free and contextual bandits with varying task difficulties, to benchmark LLMs' performance. Motivated by the existence of optimal exploration algorithms, we propose efficient ways to integrate this algorithmic knowledge into LLMs: by providing explicit algorithm-guided support during inference; and through algorithm distillation via in-context demonstrations and fine-tuning, using synthetic data generated from these algorithms. Impressively, these techniques allow us to achieve superior exploration performance with smaller models, surpassing larger models on various tasks. We conducted an extensive ablation study to shed light on various factors, such as task difficulty and data representation, that influence the efficiency of LLM exploration. Additionally, we conduct a rigorous analysis of the LLM's exploration efficiency using the concept of regret, linking its ability to explore to the model size and underlying algorithm.
- Abstract(参考訳): 多くのドメインで成功したにもかかわらず、大きな言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
これは、パーソナライズされたレコメンデーションから医療介入まで、多くの現実世界のアプリケーションにおいて重要なことです。
本研究では,LLMの帯域幅を最適に決定する能力,すなわち,多くのアプリケーションに関係のあるステートレス強化学習環境を計測する。
LLMの性能をベンチマークするために,環境の包括的スイートを開発する。
最適な探索アルゴリズムの存在を動機として,推論中に明示的なアルゴリズム誘導型サポートを提供することにより,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
印象的なことに、これらの手法により、より小さなモデルでより優れた探索性能を達成でき、様々なタスクにおいてより大きなモデルを超えることができる。
LLM探索の効率に影響を及ぼす課題難易度やデータ表現など,様々な要因について,広範囲にわたるアブレーション研究を行った。
さらに、後悔の概念を用いて、LLMの探索効率を厳密に分析し、モデルサイズと基礎となるアルゴリズムを探索する能力にリンクする。
関連論文リスト
- Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction [14.982446379660633]
大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。
複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。
本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
論文 参考訳(メタデータ) (2024-06-17T12:11:01Z) - A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。
ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文 参考訳(メタデータ) (2024-06-09T02:36:00Z) - Thought of Search: Planning with Language Models Through The Lens of Efficiency [22.47015814897628]
我々は近年の傾向が非効率性のために健全性と完全性の両方を放棄していると論じる。
本研究では,LLMを用いて検索コンポーネントのコードを生成することにより,全データセットを100%精度で解けることを示す。
論文 参考訳(メタデータ) (2024-04-18T01:27:29Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。