論文の概要: Random-Set Large Language Models
- arxiv url: http://arxiv.org/abs/2504.18085v1
- Date: Fri, 25 Apr 2025 05:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.65134
- Title: Random-Set Large Language Models
- Title(参考訳): ランダムセット大言語モデル
- Authors: Muhammad Mubashar, Shireen Kudukkil Manchingal, Fabio Cuzzolin,
- Abstract要約: 大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。
しかし、この生成されたテキストはいくら信用できますか?
本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
- 参考スコア(独自算出の注目度): 4.308457163593758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are known to produce very high-quality tests and responses to our queries. But how much can we trust this generated text? In this paper, we study the problem of uncertainty quantification in LLMs. We propose a novel Random-Set Large Language Model (RSLLM) approach which predicts finite random sets (belief functions) over the token space, rather than probability vectors as in classical LLMs. In order to allow so efficiently, we also present a methodology based on hierarchical clustering to extract and use a budget of "focal" subsets of tokens upon which the belief prediction is defined, rather than using all possible collections of tokens, making the method scalable yet effective. RS-LLMs encode the epistemic uncertainty induced in their generation process by the size and diversity of its training set via the size of the credal sets associated with the predicted belief functions. The proposed approach is evaluated on CoQA and OBQA datasets using Llama2-7b, Mistral-7b and Phi-2 models and is shown to outperform the standard model in both datasets in terms of correctness of answer while also showing potential in estimating the second level uncertainty in its predictions and providing the capability to detect when its hallucinating.
- Abstract(参考訳): 大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。
しかし、この生成されたテキストはいくら信用できますか?
本稿では,LLMにおける不確実性定量化の問題について検討する。
本稿では,従来のLLMのような確率ベクトルではなく,トークン空間上の有限乱数集合(関数)を予測する新しいランダムセット大言語モデル(RSLLM)を提案する。
このような効率性を確保するため,階層的クラスタリングに基づく手法も提案する。トークンの集合を全て使用するのではなく,信念予測が定義されているトークンの「焦点」部分集合を抽出し,使用するための手法である。
RS-LLMは、予測された信念関数に関連付けられたクレダルセットのサイズと多様性によって、その生成過程で誘発されるてんかんの不確実性を符号化する。
提案手法は、Llama2-7b、Mistral-7b、Phi-2モデルを用いて、CoQAおよびOBQAデータセット上で評価され、回答の正しさの観点から、両方のデータセットにおいて標準モデルを上回る性能を示し、また、予測における第2レベルの不確実性を推定し、幻覚のタイミングを検出する能力を提供する。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。