論文の概要: A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2601.12945v1
- Date: Mon, 19 Jan 2026 10:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.870768
- Title: A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits
- Title(参考訳): 大規模言語モデルと多言語帯域間の相互作用に関するコンポーネントベース調査
- Authors: Miao Xie, Siguang Chen, Chunli Lv,
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成のために強力で広く使われている。
マルチアーム・バンディット(MAB)アルゴリズムは不確実性の下での適応的意思決定のための原則的枠組みを提供する。
この2つの分野の交点におけるポテンシャルについて調査する。
- 参考スコア(独自算出の注目度): 2.969473917919491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become powerful and widely used systems for language understanding and generation, while multi-armed bandit (MAB) algorithms provide a principled framework for adaptive decision-making under uncertainty. This survey explores the potential at the intersection of these two fields. As we know, it is the first survey to systematically review the bidirectional interaction between large language models and multi-armed bandits at the component level. We highlight the bidirectional benefits: MAB algorithms address critical LLM challenges, spanning from pre-training to retrieval-augmented generation (RAG) and personalization. Conversely, LLMs enhance MAB systems by redefining core components such as arm definition and environment modeling, thereby improving decision-making in sequential tasks. We analyze existing LLM-enhanced bandit systems and bandit-enhanced LLM systems, providing insights into their design, methodologies, and performance. Key challenges and representative findings are identified to help guide future research. An accompanying GitHub repository that indexes relevant literature is available at https://github.com/bucky1119/Awesome-LLM-Bandit-Interaction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と生成のために強力で広く使われているシステムとなり、マルチアーム・バンディット(MAB)アルゴリズムは不確実性の下で適応的な意思決定のための原則的なフレームワークを提供する。
この2つの分野の交点におけるポテンシャルについて調査する。
私たちが知っているように、これはコンポーネントレベルでの大規模言語モデルと多武装バンディットの双方向相互作用を体系的にレビューする最初の調査である。
MABアルゴリズムは、事前学習から検索強化世代(RAG)、パーソナライズまで、重要なLLM課題に対処する。
逆にLLMは、アーム定義や環境モデリングなどのコアコンポーネントを再定義することでMABシステムを強化し、シーケンシャルタスクにおける意思決定を改善する。
既存の LLM 拡張バンドシステムと帯域拡張 LLM システムを分析し,その設計,方法論,性能について考察する。
今後の研究を導く上で重要な課題と代表的な発見が特定される。
関連する文献をインデックスするGitHubリポジトリがhttps://github.com/bucky1119/Awesome-LLM-Bandit-Interactionで公開されている。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Survey: Multi-Armed Bandits Meet Large Language Models [6.718566736462752]
BanditアルゴリズムとLarge Language Models (LLM)が人工知能の強力なツールとして登場した。
まず, LLM微調整, プロンプトエンジニアリング, 適応応答生成の最適化において, 帯域幅アルゴリズムが果たす役割について検討する。
次に、LLMが文脈理解の高度化、動的適応、および自然言語推論を用いたポリシー選択の改善を通じて、帯域幅アルゴリズムをどのように拡張するかを検討する。
論文 参考訳(メタデータ) (2025-05-19T16:57:57Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文 参考訳(メタデータ) (2025-02-03T07:19:05Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。