論文の概要: Large Language Model-Enhanced Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2502.01118v1
- Date: Mon, 03 Feb 2025 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:04.425921
- Title: Large Language Model-Enhanced Multi-Armed Bandits
- Title(参考訳): 大規模言語モデルによるマルチアーマッド帯域の拡張
- Authors: Jiahang Sun, Zhiyong Wang, Runhan Yang, Chenjun Xiao, John C. S. Lui, Zhongxiang Dai,
- Abstract要約: 大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
- 参考スコア(独自算出の注目度): 43.34246396804588
- License:
- Abstract: Large language models (LLMs) have been adopted to solve sequential decision-making tasks such as multi-armed bandits (MAB), in which an LLM is directly instructed to select the arms to pull in every iteration. However, this paradigm of direct arm selection using LLMs has been shown to be suboptimal in many MAB tasks. Therefore, we propose an alternative approach which combines the strengths of classical MAB and LLMs. Specifically, we adopt a classical MAB algorithm as the high-level framework and leverage the strong in-context learning capability of LLMs to perform the sub-task of reward prediction. Firstly, we incorporate the LLM-based reward predictor into the classical Thompson sampling (TS) algorithm and adopt a decaying schedule for the LLM temperature to ensure a transition from exploration to exploitation. Next, we incorporate the LLM-based reward predictor (with a temperature of 0) into a regression oracle-based MAB algorithm equipped with an explicit exploration mechanism. We also extend our TS-based algorithm to dueling bandits where only the preference feedback between pairs of arms is available, which requires non-trivial algorithmic modifications. We conduct empirical evaluations using both synthetic MAB tasks and experiments designed using real-world text datasets, in which the results show that our algorithms consistently outperform previous baseline methods based on direct arm selection. Interestingly, we also demonstrate that in challenging tasks where the arms lack semantic meanings that can be exploited by the LLM, our approach achieves considerably better performance than LLM-based direct arm selection.
- Abstract(参考訳): 大規模言語モデル (LLM) は、マルチアーム・バンディット (MAB) のような連続的な意思決定タスクを解決するために採用されている。
しかし、LSMを用いた直接アーム選択のパラダイムは多くのMABタスクにおいて最適以下であることが示されている。
そこで本研究では,従来のMABとLLMの強みを組み合わせた代替手法を提案する。
具体的には,従来のMABアルゴリズムを高レベルフレームワークとして採用し,LLMの強いコンテキスト内学習能力を活用し,報酬予測のサブタスクを実行する。
まず, LLMに基づく報酬予測器を古典的なトンプソンサンプリング(TS)アルゴリズムに組み込み, LLM温度の減衰スケジュールを適用し, 探索から利用への移行を保証する。
次に、LLMに基づく報酬予測器(温度0の温度)を、明示的な探索機構を備えた回帰オラクルに基づくMABアルゴリズムに組み込む。
我々はまた、TSベースのアルゴリズムを、両腕間の好みフィードバックのみを利用できるデュエルバンドまで拡張し、非自明なアルゴリズム修正を必要とする。
我々は実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて実験的な評価を行い、その結果、我々のアルゴリズムは、直接アームの選択に基づいて、従来のベースライン手法を一貫して上回っていることを示す。
興味深いことに,本手法では, LLMが活用できる意味的意味を欠く課題において, LLMをベースとしたダイレクトアーム選択よりもはるかに優れた性能を実現している。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - Meta-Prompt Optimization for LLM-Based Sequential Decision Making [24.050701239196876]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクを解決するエージェントとして採用されている。
メタプロンプトにおけるタスク記述とメタインストラクションを自動的に最適化する,プロンプト最適化(EXPO)のためのEXPonential-weightアルゴリズムを提案する。
また、EXPOを拡張して、メタプロンプトの例を最適化し、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-02-02T09:22:39Z) - Sequential Large Language Model-Based Hyper-parameter Optimization [0.0]
本研究では,大規模言語モデル(LLM)をハイパーパラメータ最適化(HPO)に活用する革新的なフレームワークSLLMBOを紹介する。
動的探索空間適応性、拡張パラメータ空間利用、新しいLLM木構造パーゼン推定器(LLM-TPE)が組み込まれている。
この総合ベンチマークは、GPT-3.5-Turbo、GPT-4o、Claude-Sonnet-3.5、Gemini-1.5-Flashを含む複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-10-27T00:50:30Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
本稿では,Dueling Bandits (DB) 問題下での文脈内意思決定者としてLarge Language Models (LLMs) を初めて検討する。
GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Llama 3.1, o1-Previewの9つのDBアルゴリズムとの比較を行った。
我々の最強のLCMであるGPT-4 Turboは、驚くほど弱い後悔を実現するため、ゼロショットの相対的意思決定能力を持っていることを示す。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。