Fugu-MT 論文翻訳(概要): Large language model validity via enhanced conformal prediction methods

論文の概要: Large language model validity via enhanced conformal prediction methods

arxiv url: http://arxiv.org/abs/2406.09714v2
Date: Thu, 31 Oct 2024 05:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.62403
Title: Large language model validity via enhanced conformal prediction methods
Title（参考訳）: 拡張共形予測法による大規模言語モデルの妥当性の検討
Authors: John J. Cherian, Isaac Gibbs, Emmanuel J. Candès,
Abstract要約: 我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。我々は、Gibs et al. (2023) の条件等式手順を一般化し、出力の実用性を維持するために必要なときに、より弱い保証を適応的に発行する。バイオグラフィーと医学的質問応答データセットに対するアプローチの有効性を実証する。
参考スコア（独自算出の注目度）: 4.081098869497239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We develop new conformal inference methods for obtaining validity guarantees on the output of large language models (LLMs). Prior work in conformal language modeling identifies a subset of the text that satisfies a high-probability guarantee of correctness. These methods work by filtering claims from the LLM's original response if a scoring function evaluated on the claim fails to exceed a threshold calibrated via split conformal prediction. Existing methods in this area suffer from two deficiencies. First, the guarantee stated is not conditionally valid. The trustworthiness of the filtering step may vary based on the topic of the response. Second, because the scoring function is imperfect, the filtering step can remove many valuable and accurate claims. We address both of these challenges via two new conformal methods. First, we generalize the conditional conformal procedure of Gibbs et al. (2023) in order to adaptively issue weaker guarantees when they are required to preserve the utility of the output. Second, we show how to systematically improve the quality of the scoring function via a novel algorithm for differentiating through the conditional conformal procedure. We demonstrate the efficacy of our approach on biography and medical question-answering datasets.
Abstract（参考訳）: 我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。共形言語モデリングにおける先行研究は、正確性の高い確率の高い保証を満たすテキストのサブセットを特定する。これらの手法は、主張に基づいて評価されたスコア関数が、分割整合予測によってキャリブレーションされたしきい値を超えなかった場合、LCMの当初の応答からクレームをフィルタリングすることで機能する。この地域の既存の方法には2つの欠陥がある。第一に、記載された保証は条件付きで有効ではない。フィルタリングステップの信頼性は、応答のトピックによって異なりうる。第二に、スコアリング関数が不完全であるため、フィルタリングステップは多くの価値ある正確なクレームを除去することができる。両課題を2つの新しいコンフォメーション手法を用いて解決する。まず、Gibs et al (2023) の条件共形手順を一般化し、出力の有効性を維持する必要がある場合に、より弱い保証を適応的に発行する。第2に,条件付きコンフォメーション手順を微分する新しいアルゴリズムを用いて,スコアリング関数の品質を体系的に改善する方法を示す。バイオグラフィーと医学的質問応答データセットに対するアプローチの有効性を実証する。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Conformal Linguistic Calibration: Trading-off between Factuality and Specificity [41.45862052156885]
本稿では,言語プラグマティクスのレンズを通して,抑止と言語キャリブレーションを結合する統一的な枠組みを提案する。本稿では,モデル応答における不正確度を制御できる実装について述べる。提案手法は,不確実性を考慮した適応的クレーム書き換えを微調整モデルで実現し,事実性と特異性の間に制御可能なバランスを与える。
論文参考訳（メタデータ） (2025-02-26T13:01:49Z)
Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文参考訳（メタデータ） (2025-02-22T19:54:14Z)
Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。自然言語生成からコード生成領域への2つの最先端技術を適用する。これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2025-02-17T10:03:01Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文参考訳（メタデータ） (2024-10-02T15:26:52Z)
Adjusting Regression Models for Conditional Uncertainty Calibration [46.69079637538012]
本稿では,分割共形予測手法を適用して条件付きカバレッジを改善するために,回帰関数を訓練する新しいアルゴリズムを提案する。本研究では,条件付きカバレッジと名目付きカバレッジ率の差分を求める上限を確立し,この上限値を制御するためのエンドツーエンドアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T01:55:45Z)
Length Optimization in Conformal Prediction [22.733758606168873]
我々は,共形予測の原理的枠組みとして,CPL(Conformal Prediction with Length-Optimization)を開発した。 CPLは条件付き妥当性を確保しつつ(ほぼ)最適な長さで予測セットを構築する。実験による評価は, CPLの最先端手法と比較して, 予測セットサイズ性能が優れていることを示す。
論文参考訳（メタデータ） (2024-06-27T01:08:04Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Split Localized Conformal Prediction [20.44976410408424]
条件分布の局所近似を利用して修正された非整合性スコアを提案する。修正されたスコアは分割共形法の精神を継承し、完全共形法と比較して単純かつ効率的である。
論文参考訳（メタデータ） (2022-06-27T07:53:38Z)
Practical Adversarial Multivalid Conformal Prediction [27.179891682629183]
逐次予測のための一般的な共形予測法を提案する。相手が選択したデータに対して、ターゲットの実証的カバレッジを保証する。これは計算的に軽量であり、分割共形予測に匹敵する。
論文参考訳（メタデータ） (2022-06-02T14:33:00Z)
Efficient and Differentiable Conformal Prediction with General Function Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文参考訳（メタデータ） (2022-02-22T18:37:23Z)
Part-X: A Family of Stochastic Algorithms for Search-Based Test Generation with Probabilistic Guarantees [3.9119084077397863]
ファルシフィケーションはサイバー物理システムにおける誤動作を発見するための実用的で効果的な方法であることが証明されている。ファルシフィケーション法の性能と適用性は常に改善されているにもかかわらず、それらは共通の特徴を共有している。テスト予算が枯渇したときの誤動作(偽装者)の欠如を保証しない最善策である。
論文参考訳（メタデータ） (2021-10-20T19:05:00Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。