論文の概要: Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study
- arxiv url: http://arxiv.org/abs/2602.17431v1
- Date: Thu, 19 Feb 2026 15:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.11408
- Title: Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study
- Title(参考訳): 長期言語モデル出力の微粒化不確かさ定量化 : 比較検討
- Authors: Dylan Bouchard, Mohit Singh Chauhan, Viren Bajaj, David Skarbrevik,
- Abstract要約: 長周期LLM出力におけるきめ細かい不確実性定量化のための分類法を提案する。
一貫性に基づくブラックボックススコアラーのいくつかのファミリを形式化し、既存のメソッドの一般化と拡張を提供する。
2)クレームレベルのスコアリングは一般的に文レベルのスコアリングよりも優れた結果が得られ,3)不確実性を考慮したデコーディングは,長文形式のアウトプットの事実性向上に極めて有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification has emerged as an effective approach to closed-book hallucination detection for LLMs, but existing methods are largely designed for short-form outputs and do not generalize well to long-form generation. We introduce a taxonomy for fine-grained uncertainty quantification in long-form LLM outputs that distinguishes methods by design choices at three stages: response decomposition, unit-level scoring, and response-level aggregation. We formalize several families of consistency-based black-box scorers, providing generalizations and extensions of existing methods. In our experiments across multiple LLMs and datasets, we find 1) claim-response entailment consistently performs better or on par with more complex claim-level scorers, 2) claim-level scoring generally yields better results than sentence-level scoring, and 3) uncertainty-aware decoding is highly effective for improving the factuality of long-form outputs. Our framework clarifies relationships between prior methods, enables apples-to-apples comparisons, and provides practical guidance for selecting components for fine-grained UQ.
- Abstract(参考訳): 不確かさの定量化は LLM の閉本幻覚検出に有効なアプローチとして現れてきたが、既存の手法は主にショートフォームの出力用に設計されており、長文生成には適さない。
本稿では,LLM出力の細粒度不確実性定量化のための分類法を提案する。これは,応答分解,単位レベルスコアリング,応答レベルアグリゲーションの3段階において,設計選択によってメソッドを区別する。
一貫性に基づくブラックボックススコアラーのいくつかのファミリを形式化し、既存のメソッドの一般化と拡張を提供する。
複数のLLMとデータセットをまたいだ実験で、私たちは
1)クレーム-レスポンス・エンターメントは,より複雑なクレームレベルスコアラーと一貫して,あるいは同等に動作する。
2)クレームレベルスコアは一般的に文レベルスコアよりも良い結果を得る。
3)不確実性を考慮した復号化は,長期出力の事実性向上に極めて有効である。
本フレームワークは,先行手法間の関係を解明し,リンゴとアプリケーションの比較を可能にするとともに,微細なUQのためのコンポーネントを選択するための実践的なガイダンスを提供する。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Access Paths for Efficient Ordering with Large Language Models [7.826046892571884]
本稿では,LLM ORDER BY演算子を論理抽象として提示し,その物理実装を統一評価フレームワーク内で検討する。
合意に基づくバッチサイズポリシー,ペアソートのための多数投票機構,LLMに適合した双方向の外部マージソートという3つの新しい設計を導入する。
論文 参考訳(メタデータ) (2025-08-30T01:44:36Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars [1.450405446885067]
多様な推論経路を持つ自己認識技術は、大言語モデル(LLM)を用いたテキスト生成において顕著な性能向上を示した。
PEDALは,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせて,総合的な性能向上を実現するハイブリッドな自己組織化手法である。
論文 参考訳(メタデータ) (2024-08-16T17:54:09Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。