論文の概要: Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.14427v1
- Date: Thu, 20 Feb 2025 10:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:07.408273
- Title: Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models
- Title(参考訳): トークンレベル密度に基づく大規模言語モデルの真理性解消のための不確実性定量化手法
- Authors: Artem Vazhentsev, Lyudmila Rvanova, Ivan Lazichny, Alexander Panchenko, Maxim Panov, Timothy Baldwin, Artem Shelmanov,
- Abstract要約: 不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
- 参考スコア(独自算出の注目度): 76.17975723711886
- License:
- Abstract: Uncertainty quantification (UQ) is a prominent approach for eliciting truthful answers from large language models (LLMs). To date, information-based and consistency-based UQ have been the dominant UQ methods for text generation via LLMs. Density-based methods, despite being very effective for UQ in text classification with encoder-based models, have not been very successful with generative LLMs. In this work, we adapt Mahalanobis Distance (MD) - a well-established UQ technique in classification tasks - for text generation and introduce a new supervised UQ method. Our method extracts token embeddings from multiple layers of LLMs, computes MD scores for each token, and uses linear regression trained on these features to provide robust uncertainty scores. Through extensive experiments on eleven datasets, we demonstrate that our approach substantially improves over existing UQ methods, providing accurate and computationally efficient uncertainty scores for both sequence-level selective generation and claim-level fact-checking tasks. Our method also exhibits strong generalization to out-of-domain data, making it suitable for a wide range of LLM-based applications.
- Abstract(参考訳): 不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
これまで、情報ベースおよび一貫性ベースのUQは、LLMによるテキスト生成において、主要なUQ手法であった。
エンコーダモデルを用いたテキスト分類ではUQには非常に効果的であるが、生成LDMではそれほど成功していない。
本研究では,テキスト生成のために,分類タスクにおいて確立されたUQ手法であるMahalanobis Distance (MD)を適用し,新しい教師付きUQ手法を導入する。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
11個のデータセットに対する広範な実験により,提案手法は既存のUQ手法よりも大幅に改善され,シーケンスレベルの選択生成とクレームレベルのファクトチェックの両タスクに対して,正確かつ効率的な不確実性スコアが提供されることを示した。
また,本手法は領域外データへの強い一般化を示し,広い範囲のLLMベースのアプリケーションに適している。
関連論文リスト
- LLM Confidence Evaluation Measures in Zero-Shot CSS Classification [1.6410524749379551]
データアノテーションタスクに適した不確実性定量化(UQ)性能尺度を提案する。
本稿では,低信頼なLDMアノテーションを効果的に識別し,不正にラベル付けされたデータを発見できる新しいUQアグリゲーション戦略を提案する。
提案したUQアグリゲーション戦略は,既存の手法により改善され,ループ内データアノテーションプロセスの大幅な改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-10-16T21:17:18Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models [0.0]
大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。
本稿では,ランダムフォレスト(RF)アンサンブルからの知識伝達を用いたLLMの学習手法を提案する。
我々は、細調整のためのアウトプットを生成し、その決定を分類し、説明するモデルの能力を高めます。
論文 参考訳(メタデータ) (2024-06-07T13:31:51Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。