論文の概要: Large language model validity via enhanced conformal prediction methods
- arxiv url: http://arxiv.org/abs/2406.09714v2
- Date: Thu, 31 Oct 2024 05:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:32.657535
- Title: Large language model validity via enhanced conformal prediction methods
- Title(参考訳): 拡張共形予測法による大規模言語モデルの妥当性の検討
- Authors: John J. Cherian, Isaac Gibbs, Emmanuel J. Candès,
- Abstract要約: 我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。
我々は、Gibs et al. (2023) の条件等式手順を一般化し、出力の実用性を維持するために必要なときに、より弱い保証を適応的に発行する。
バイオグラフィーと医学的質問応答データセットに対するアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 4.081098869497239
- License:
- Abstract: We develop new conformal inference methods for obtaining validity guarantees on the output of large language models (LLMs). Prior work in conformal language modeling identifies a subset of the text that satisfies a high-probability guarantee of correctness. These methods work by filtering claims from the LLM's original response if a scoring function evaluated on the claim fails to exceed a threshold calibrated via split conformal prediction. Existing methods in this area suffer from two deficiencies. First, the guarantee stated is not conditionally valid. The trustworthiness of the filtering step may vary based on the topic of the response. Second, because the scoring function is imperfect, the filtering step can remove many valuable and accurate claims. We address both of these challenges via two new conformal methods. First, we generalize the conditional conformal procedure of Gibbs et al. (2023) in order to adaptively issue weaker guarantees when they are required to preserve the utility of the output. Second, we show how to systematically improve the quality of the scoring function via a novel algorithm for differentiating through the conditional conformal procedure. We demonstrate the efficacy of our approach on biography and medical question-answering datasets.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。
共形言語モデリングにおける先行研究は、正確性の高い確率の高い保証を満たすテキストのサブセットを特定する。
これらの手法は、主張に基づいて評価されたスコア関数が、分割整合予測によってキャリブレーションされたしきい値を超えなかった場合、LCMの当初の応答からクレームをフィルタリングすることで機能する。
この地域の既存の方法には2つの欠陥がある。
第一に、記載された保証は条件付きで有効ではない。
フィルタリングステップの信頼性は、応答のトピックによって異なりうる。
第二に、スコアリング関数が不完全であるため、フィルタリングステップは多くの価値ある正確なクレームを除去することができる。
両課題を2つの新しいコンフォメーション手法を用いて解決する。
まず、Gibs et al (2023) の条件共形手順を一般化し、出力の有効性を維持する必要がある場合に、より弱い保証を適応的に発行する。
第2に,条件付きコンフォメーション手順を微分する新しいアルゴリズムを用いて,スコアリング関数の品質を体系的に改善する方法を示す。
バイオグラフィーと医学的質問応答データセットに対するアプローチの有効性を実証する。
関連論文リスト
- Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
我々は、自然言語生成から最先端の2つの技術を適用した。
我々は,不確実性が高い場合にモデルを予測できないようにするための禁忌ポリシーを開発する。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Length Optimization in Conformal Prediction [22.733758606168873]
Conformal Prediction with Length-Optimization (CPL) は、ほぼ最適な長さの予測セットを構築するための、新しく実用的なフレームワークである。
本稿では,CPLが条件付き妥当性と長さの最適性を実現することを示す。
実験による評価は, CPLの最先端手法と比較して, 予測セットサイズ性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-06-27T01:08:04Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Split Localized Conformal Prediction [20.44976410408424]
条件分布の局所近似を利用して修正された非整合性スコアを提案する。
修正されたスコアは分割共形法の精神を継承し、完全共形法と比較して単純かつ効率的である。
論文 参考訳(メタデータ) (2022-06-27T07:53:38Z) - Practical Adversarial Multivalid Conformal Prediction [27.179891682629183]
逐次予測のための一般的な共形予測法を提案する。
相手が選択したデータに対して、ターゲットの実証的カバレッジを保証する。
これは計算的に軽量であり、分割共形予測に匹敵する。
論文 参考訳(メタデータ) (2022-06-02T14:33:00Z) - Part-X: A Family of Stochastic Algorithms for Search-Based Test
Generation with Probabilistic Guarantees [3.9119084077397863]
ファルシフィケーションはサイバー物理システムにおける誤動作を発見するための実用的で効果的な方法であることが証明されている。
ファルシフィケーション法の性能と適用性は常に改善されているにもかかわらず、それらは共通の特徴を共有している。
テスト予算が枯渇したときの誤動作(偽装者)の欠如を保証しない最善策である。
論文 参考訳(メタデータ) (2021-10-20T19:05:00Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。