論文の概要: Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
- arxiv url: http://arxiv.org/abs/2504.19254v2
- Date: Wed, 30 Apr 2025 16:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.198044
- Title: Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
- Title(参考訳): 言語モデルの不確かさの定量化:ブラックボックス,ホワイトボックス,LDMジャッジ,アンサンブルスコラーの集合
- Authors: Dylan Bouchard, Mohit Singh Chauhan,
- Abstract要約: 幻覚はLarge Language Models(LLM)における永続的な問題である
本稿では,実践者が実世界のユースケースに適用可能なゼロリソース幻覚検出のための多用途フレームワークを提案する。
柔軟性を高めるために、各信頼度スコアの組み合わせを組み込んだ調整可能なアンサンブルアプローチを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations are a persistent problem with Large Language Models (LLMs). As these models become increasingly used in high-stakes domains, such as healthcare and finance, the need for effective hallucination detection is crucial. To this end, we propose a versatile framework for zero-resource hallucination detection that practitioners can apply to real-world use cases. To achieve this, we adapt a variety of existing uncertainty quantification (UQ) techniques, including black-box UQ, white-box UQ, and LLM-as-a-Judge, transforming them as necessary into standardized response-level confidence scores ranging from 0 to 1. To enhance flexibility, we introduce a tunable ensemble approach that incorporates any combination of the individual confidence scores. This approach enables practitioners to optimize the ensemble for a specific use case for improved performance. To streamline implementation, the full suite of scorers is offered in this paper's companion Python toolkit, UQLM. To evaluate the performance of the various scorers, we conduct an extensive set of experiments using several LLM question-answering benchmarks. We find that our tunable ensemble typically surpasses its individual components and outperforms existing hallucination detection methods. Our results demonstrate the benefits of customized hallucination detection strategies for improving the accuracy and reliability of LLMs.
- Abstract(参考訳): 幻覚は、Large Language Models (LLM) における永続的な問題である。
これらのモデルが医療や金融などのハイテイクドメインでますます使われるようになるにつれ、効果的な幻覚検出の必要性が重要となる。
そこで本稿では,実践者が実世界のユースケースに適用可能なゼロリソース幻覚検出のための汎用フレームワークを提案する。
これを実現するため、ブラックボックスUQ、ホワイトボックスUQ、LDM-as-a-Judgeなど、既存の不確実性定量化(UQ)技術に適応し、必要に応じて0から1までの標準応答レベルの信頼性スコアに変換する。
柔軟性を高めるために、各信頼度スコアの組み合わせを組み込んだ調整可能なアンサンブルアプローチを導入する。
このアプローチは、パフォーマンスを改善するための特定のユースケースのためのアンサンブルを最適化することを可能にする。
実装の合理化のために、この論文の共用PythonツールキットであるUQLMでは、スコアラーの全スイートが提供されている。
各種スコアラーの性能を評価するため,複数のLCM質問応答ベンチマークを用いて広範囲な実験を行った。
調整可能なアンサンブルは、通常、個々のコンポーネントを超え、既存の幻覚検出方法より優れています。
本研究は,LLMの精度と信頼性を向上させるために,カスタマイズ幻覚検出手法の利点を実証するものである。
関連論文リスト
- SINdex: Semantic INconsistency Index for Hallucination Detection in LLMs [2.805517909463769]
大規模言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされる傾向にあるが、事実的に誤った出力を生成する傾向にある。
自動幻覚検出のための新しい,スケーラブルな不確実性に基づくセマンティッククラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T23:25:19Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。
表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。
本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文 参考訳(メタデータ) (2025-02-22T10:48:18Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - Cost-Effective Hallucination Detection for LLMs [11.58436181159839]
大規模な言語モデル(LLM)は幻覚を起こす傾向があり、入力、外部事実、あるいは内部的矛盾に反する信頼できない出力を生成する。
幻覚検出のためのパイプラインでは,まず,生成した回答が幻覚である可能性を示す信頼スコアを生成し,第2に,入力の属性と候補応答に基づいてスコア条件を調整し,第3に,スコアを閾値付けして検出を行う。
論文 参考訳(メタデータ) (2024-07-31T08:19:06Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。