論文の概要: IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation
- arxiv url: http://arxiv.org/abs/2604.15109v2
- Date: Sun, 19 Apr 2026 16:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.190851
- Title: IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation
- Title(参考訳): IUQ: 長期大規模言語モデル生成のための相互不確実性定量化
- Authors: Haozhi Fan, Jinhao Duan, Kaidi Xu,
- Abstract要約: 本稿では,不確実性を定量化するために,サンプル間の一貫性とサンプル内忠実性を活用する新しいフレームワークであるInterrogative Uncertainity Quantification(IUQ)を紹介する。
モデルファミリとモデルサイズにまたがる実験結果は、広く使用されている2つの長文生成データセットよりも、IUQの優れた性能を示す。
- 参考スコア(独自算出の注目度): 25.78840651769687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancement of Large Language Models (LLMs), uncertainty quantification in LLM generation is a persistent challenge. Although recent approaches have achieved strong performance by restricting LLMs to produce short or constrained answer sets, many real-world applications require long-form and free-form text generation. A key difficulty in this setting is that LLMs often produce responses that are semantically coherent yet factually inaccurate, while the underlying semantics are multifaceted and the linguistic structure is complex. To tackle this challenge, this paper introduces Interrogative Uncertainty Quantification (IUQ), a novel framework that leverages inter-sample consistency and intra-sample faithfulness to quantify the uncertainty in long-form LLM outputs. By utilizing an interrogate-then-respond paradigm, our method provides reliable measures of claim-level uncertainty and the model's faithfulness. Experimental results across diverse model families and model sizes demonstrate the superior performance of IUQ over two widely used long-form generation datasets. The code is available at https://github.com/louisfanhz/IUQ.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩にもかかわらず、LLM生成の不確実性定量化は永続的な課題である。
近年のアプローチは、LLMを制限して短い、あるいは制約された応答集合を生成することで、高いパフォーマンスを実現しているが、多くの現実世界のアプリケーションは、長文および自由形テキスト生成を必要とする。
この設定における重要な困難は、LLMが意味的に一貫性があるが事実的に不正確な応答をしばしば生成するのに対して、基礎となるセマンティクスは多面的であり、言語構造は複雑である。
この課題に対処するために、長いLLM出力の不確かさを定量化するために、サンプル間の一貫性とサンプル内忠実性を活用する新しいフレームワークであるInterrogative Uncertainity Quantification (IUQ)を導入する。
問合せ対応パラダイムを利用して,クレームレベルの不確実性とモデルの忠実度を信頼度として評価する。
モデルファミリとモデルサイズにまたがる実験結果は、広く使用されている2つの長文生成データセットよりも、IUQの優れた性能を示す。
コードはhttps://github.com/louisfanhz/IUQ.comで入手できる。
関連論文リスト
- UNCLE: Benchmarking Uncertainty Expressions in Long-Form Generation [69.13972417517233]
大型言語モデル(LLM)は幻覚を起こす傾向があり、特に長期の世代では顕著である。
長文と短文の問合せ(QA)における不確実性評価のためのベンチマークであるUNCLEを紹介する。
我々のデータセットは、一致した質問やゴールドスタンダードの回答を通じて、短くて長いQAを直接リンクする最初のものです。
論文 参考訳(メタデータ) (2025-05-22T17:16:08Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。