論文の概要: Textual Bayes: Quantifying Uncertainty in LLM-Based Systems
- arxiv url: http://arxiv.org/abs/2506.10060v1
- Date: Wed, 11 Jun 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.357697
- Title: Textual Bayes: Quantifying Uncertainty in LLM-Based Systems
- Title(参考訳): テキストベイズ:LLMシステムにおける不確かさの定量化
- Authors: Brendan Leigh Ross, Noël Vouitsis, Atiyeh Ashari Ghomi, Rasa Hosseinzadeh, Ji Xin, Zhaoyan Liu, Yi Sui, Shiyi Hou, Kin Kwan Leung, Gabriel Loaiza-Ganem, Jesse C. Cresswell,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界の課題を解決する能力がますます高まっている。
不確実性を正確に定量化することは 重要な問題です
この課題は、多くの最先端のLCMのクローズドソース、ブラックボックスの性質によって複雑化されている。
- 参考スコア(独自算出の注目度): 16.449972045324916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although large language models (LLMs) are becoming increasingly capable of solving challenging real-world tasks, accurately quantifying their uncertainty remains a critical open problem, which limits their applicability in high-stakes domains. This challenge is further compounded by the closed-source, black-box nature of many state-of-the-art LLMs. Moreover, LLM-based systems can be highly sensitive to the prompts that bind them together, which often require significant manual tuning (i.e., prompt engineering). In this work, we address these challenges by viewing LLM-based systems through a Bayesian lens. We interpret prompts as textual parameters in a statistical model, allowing us to use a small training dataset to perform Bayesian inference over these prompts. This novel perspective enables principled uncertainty quantification over both the model's textual parameters and its downstream predictions, while also incorporating prior beliefs about these parameters expressed in free-form text. To perform Bayesian inference, a difficult problem even for well-studied data modalities, we introduce Metropolis-Hastings through LLM Proposals (MHLP), a novel Markov chain Monte Carlo (MCMC) algorithm that combines prompt optimization techniques with standard MCMC methods. MHLP is a turnkey modification to existing LLM pipelines, including those that rely exclusively on closed-source models. Empirically, we demonstrate that our method yields improvements in both predictive accuracy and uncertainty quantification (UQ) on a range of LLM benchmarks and UQ tasks. More broadly, our work demonstrates a viable path for incorporating methods from the rich Bayesian literature into the era of LLMs, paving the way for more reliable and calibrated LLM-based systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界の課題を解決する能力がますます高まっているが、それらの不確実性を正確に定量化することは重要なオープンな問題であり、高い領域での適用性を制限する。
この課題は、多くの最先端のLCMのクローズドソース、ブラックボックスの性質によってさらに複雑化されている。
さらに、LLMベースのシステムはそれらを結合するプロンプトに非常に敏感であり、しばしば手動チューニング(即興工学)を必要とする。
本研究では,これらの課題に対して,ベイズレンズを通してLLM系システムを見ることで対処する。
統計モデルでは,プロンプトをテキストパラメータとして解釈し,小さなトレーニングデータセットを用いてこれらのプロンプトに対してベイズ推定を行うことができる。
この新たな視点は、モデルのテキストパラメータと下流の予測の両方に対する原則的不確実性定量化を可能にし、また、これらのパラメータに関する以前の信念を自由形式のテキストで表現することを可能にする。
そこで我々は,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムであるMHLP(Metropolis-Hastings through LLM Proposals)を導入する。
MHLPは、クローズドソースモデルのみに依存するものを含む、既存のLLMパイプラインのターンキー修正である。
実験により,LLMベンチマークやUQタスクにおいて,予測精度と不確実性定量化(UQ)の両方の改善が得られた。
より広範に、我々の研究は豊かなベイズ文学から LLM の時代への手法を取り入れ、より信頼性と校正された LLM ベースのシステムへの道を開いた。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。