Fugu-MT 論文翻訳(概要): FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees

論文の概要: FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees

arxiv url: http://arxiv.org/abs/2411.02603v2
Date: Wed, 06 Nov 2024 08:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.375061
Title: FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees
Title（参考訳）: FactTest: 有限サンプルと分散不要保証を備えた大規模言語モデルにおけるファクチュアリティテスト
Authors: Fan Nie, Xiaotian Hou, Shuhang Lin, James Zou, Huaxiu Yao, Linjun Zhang,
Abstract要約: 幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。 FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
参考スコア（独自算出の注目度）: 41.78390564658645
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The propensity of Large Language Models (LLMs) to generate hallucinations and non-factual content undermines their reliability in high-stakes domains, where rigorous control over Type I errors (the conditional probability of incorrectly classifying hallucinations as truthful content) is essential. Despite its importance, formal verification of LLM factuality with such guarantees remains largely unexplored. In this paper, we introduce FactTest, a novel framework that statistically assesses whether an LLM can confidently provide correct answers to given questions with high-probability correctness guarantees. We formulate factuality testing as hypothesis testing problem to enforce an upper bound of Type I errors at user-specified significance levels. Notably, we prove that our framework also ensures strong Type II error control under mild conditions and can be extended to maintain its effectiveness when covariate shifts exist. %These analyses are amenable to the principled NP framework. Our approach is distribution-free and works for any number of human-annotated samples. It is model-agnostic and applies to any black-box or white-box LM. Extensive experiments on question-answering (QA) and multiple-choice benchmarks demonstrate that \approach effectively detects hallucinations and improves the model's ability to abstain from answering unknown questions, leading to an over 40% accuracy improvement.
Abstract（参考訳）: 大規模言語モデル(LLM)による幻覚や非現実的コンテンツの生成は、I型エラーに対する厳密な制御(誤って幻覚を真に分類する条件付き確率)が不可欠であるハイテイク領域において、その信頼性を損なう。その重要性にもかかわらず、そのような保証によるLLMの事実性の正式な検証はほとんど未解明のままである。本稿では,LLMが高い確率的正当性保証を有する質問に対して,自信を持って回答を提供できるかどうかを統計的に評価する新しいフレームワークであるFactTestを紹介する。我々は,仮説テスト問題として事実性試験を定式化し,ユーザが特定した重要度レベルにおいて,I型エラーの上限を上限とする。特に,本フレームワークは軽度条件下での強いタイプIIエラー制御を保証し,共変量シフトが存在する場合にその有効性を維持するために拡張可能であることを証明している。 %であり,これらの分析はNPフレームワークに適応可能である。我々のアプローチは、分布のないものであり、人間に注釈を付けたサンプルの何個にも当てはまる。モデルに依存しず、どんなブラックボックスやホワイトボックスのLMにも適用できる。 QA(Qarguy-Awering)とMulti-choice(Multi-choice)ベンチマークの広範な実験により、 \approachは幻覚を効果的に検出し、未知の質問に答えることを禁じるモデルの能力を改善し、40%以上の精度の向上をもたらすことが示された。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Towards Statistical Factuality Guarantee for Large Vision-Language Models [15.51028935811803]
LVLM出力の事実性に関する有限サンプル分布自由統計保証を実現するためのフレームワークを提案する。 ConfLVLMは、シーン記述においてLLaVa-1.5が生成したクレームの誤り率を87.8%から10.0%に下げ、95.3%の真の正のクレームをフィルタリングする。さらに, ConfLVLMは高い柔軟性を示し, 画像条件付き自由形式のテキスト生成タスクに対して, 不確実性を考慮した任意のブラックボックスLVLMに適用可能であることを示した。
論文参考訳（メタデータ） (2025-02-27T22:01:22Z)
A Statistical Hypothesis Testing Framework for Data Misappropriation Detection in Large Language Models [14.834820135578045]
我々は,LLMが他のLLMが生成したデータを組み込んだかどうかを判断するために,データ誤り検出の問題に焦点をあてる。この問題に対処するため,著作権付きトレーニングデータに透かしを埋め込む手法を提案し,仮説テスト問題としてデータ誤用の検出を定式化する。
論文参考訳（メタデータ） (2025-01-05T04:47:42Z)
VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Credal Two-Sample Tests of Epistemic Ignorance [34.42566984003255]
干潟集合を比較するための新しい仮説テストフレームワークである干潟2サンプル試験を導入する。両サンプル試験を一般化して, 対等性, 包摂性, 交叉性, 相互排他性の推論を可能にする。
論文参考訳（メタデータ） (2024-10-16T18:09:09Z)
To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。定式化の利点を実証する一連の実験を行う。
論文参考訳（メタデータ） (2024-06-04T17:58:18Z)
Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-07T17:44:17Z)
Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は、ゲノミクスから心理学まで、様々な科学分野において一般的に発生し、多くの仮説のテストが同時にタイプIエラーのリスクを増大させる。本稿では,これらの依存関係を有効活用する新たな補正法であるtextttmax-rank$を提案する。
論文参考訳（メタデータ） (2023-11-17T22:44:22Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文参考訳（メタデータ） (2023-05-24T10:12:33Z)
Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文参考訳（メタデータ） (2023-05-09T22:49:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。