論文の概要: FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees
- arxiv url: http://arxiv.org/abs/2411.02603v2
- Date: Wed, 06 Nov 2024 08:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 11:18:00.590543
- Title: FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees
- Title(参考訳): FactTest: 有限サンプルと分散不要保証を備えた大規模言語モデルにおけるファクチュアリティテスト
- Authors: Fan Nie, Xiaotian Hou, Shuhang Lin, James Zou, Huaxiu Yao, Linjun Zhang,
- Abstract要約: 幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 41.78390564658645
- License:
- Abstract: The propensity of Large Language Models (LLMs) to generate hallucinations and non-factual content undermines their reliability in high-stakes domains, where rigorous control over Type I errors (the conditional probability of incorrectly classifying hallucinations as truthful content) is essential. Despite its importance, formal verification of LLM factuality with such guarantees remains largely unexplored. In this paper, we introduce FactTest, a novel framework that statistically assesses whether an LLM can confidently provide correct answers to given questions with high-probability correctness guarantees. We formulate factuality testing as hypothesis testing problem to enforce an upper bound of Type I errors at user-specified significance levels. Notably, we prove that our framework also ensures strong Type II error control under mild conditions and can be extended to maintain its effectiveness when covariate shifts exist. %These analyses are amenable to the principled NP framework. Our approach is distribution-free and works for any number of human-annotated samples. It is model-agnostic and applies to any black-box or white-box LM. Extensive experiments on question-answering (QA) and multiple-choice benchmarks demonstrate that \approach effectively detects hallucinations and improves the model's ability to abstain from answering unknown questions, leading to an over 40% accuracy improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)による幻覚や非現実的コンテンツの生成は、I型エラーに対する厳密な制御(誤って幻覚を真に分類する条件付き確率)が不可欠であるハイテイク領域において、その信頼性を損なう。
その重要性にもかかわらず、そのような保証によるLLMの事実性の正式な検証はほとんど未解明のままである。
本稿では,LLMが高い確率的正当性保証を有する質問に対して,自信を持って回答を提供できるかどうかを統計的に評価する新しいフレームワークであるFactTestを紹介する。
我々は,仮説テスト問題として事実性試験を定式化し,ユーザが特定した重要度レベルにおいて,I型エラーの上限を上限とする。
特に,本フレームワークは軽度条件下での強いタイプIIエラー制御を保証し,共変量シフトが存在する場合にその有効性を維持するために拡張可能であることを証明している。
%であり,これらの分析はNPフレームワークに適応可能である。
我々のアプローチは、分布のないものであり、人間に注釈を付けたサンプルの何個にも当てはまる。
モデルに依存しず、どんなブラックボックスやホワイトボックスのLMにも適用できる。
QA(Qarguy-Awering)とMulti-choice(Multi-choice)ベンチマークの広範な実験により、 \approachは幻覚を効果的に検出し、未知の質問に答えることを禁じるモデルの能力を改善し、40%以上の精度の向上をもたらすことが示された。
関連論文リスト
- Credal Two-Sample Tests of Epistemic Ignorance [34.42566984003255]
干潟集合を比較するための新しい仮説テストフレームワークである干潟2サンプル試験を導入する。
両サンプル試験を一般化して, 対等性, 包摂性, 交叉性, 相互排他性の推論を可能にする。
論文 参考訳(メタデータ) (2024-10-16T18:09:09Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は、ゲノミクスから心理学まで、様々な科学分野において一般的に発生し、多くの仮説のテストが同時にタイプIエラーのリスクを増大させる。
本稿では,これらの依存関係を有効活用する新たな補正法であるtextttmax-rank$を提案する。
論文 参考訳(メタデータ) (2023-11-17T22:44:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。