論文の概要: Evaluating Uncertainty Quantification Methods in Argumentative Large Language Models
- arxiv url: http://arxiv.org/abs/2510.02339v1
- Date: Fri, 26 Sep 2025 19:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.015522
- Title: Evaluating Uncertainty Quantification Methods in Argumentative Large Language Models
- Title(参考訳): 代用大言語モデルにおける不確実性定量化手法の評価
- Authors: Kevin Zhou, Adam Dejl, Gabriel Freedman, Lihu Chen, Antonio Rago, Francesca Toni,
- Abstract要約: 我々は,異なるUQ手法を用いる場合のクレーム検証タスクにおいて,ArgLLMsの性能を評価する実験を行う。
これらの結果から,ArgLLMsでは直接的プロンプトが有効なUQ戦略であることが示唆された。
- 参考スコア(独自算出の注目度): 24.97354151540176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in uncertainty quantification (UQ) for large language models (LLMs) is increasingly important towards guaranteeing the reliability of this groundbreaking technology. We explore the integration of LLM UQ methods in argumentative LLMs (ArgLLMs), an explainable LLM framework for decision-making based on computational argumentation in which UQ plays a critical role. We conduct experiments to evaluate ArgLLMs' performance on claim verification tasks when using different LLM UQ methods, inherently performing an assessment of the UQ methods' effectiveness. Moreover, the experimental procedure itself is a novel way of evaluating the effectiveness of UQ methods, especially when intricate and potentially contentious statements are present. Our results demonstrate that, despite its simplicity, direct prompting is an effective UQ strategy in ArgLLMs, outperforming considerably more complex approaches.
- Abstract(参考訳): 大規模言語モデル(LLMs)に対する不確実性定量化(UQ)の研究は、この画期的な技術の信頼性を保証するためにますます重要である。
本稿では,議論的LLM(ArgLLMs)におけるLLM UQ手法の統合について考察する。
我々は,異なる LLM UQ 手法を用いる場合のクレーム検証タスクにおいて,ArgLLMs の性能を評価する実験を行い,UQ 手法の有効性を本質的に評価する。
さらに、実験方法自体がUQ手法の有効性を評価する新しい方法であり、特に複雑で潜在的に議論の余地のある文が存在する場合である。
これらの結果から,ArgLLMsにおいて直接的プロンプトは有効なUQ戦略であり,より複雑なアプローチよりも優れていることが示された。
関連論文リスト
- CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。