論文の概要: API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access
- arxiv url: http://arxiv.org/abs/2403.01216v2
- Date: Thu, 4 Apr 2024 02:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:23:57.122679
- Title: API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access
- Title(参考訳): APIが十分:ロジットアクセシブのない大規模言語モデルのコンフォーマルな予測
- Authors: Jiayuan Su, Jing Luo, Hongwei Wang, Lu Cheng,
- Abstract要約: 本研究では,ロジットアクセスを伴わない大規模言語モデル (LLM) における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。
LLM の既存の Conformal Prediction (CP) メソッドは一般的に、APIのみの LLM では利用できないロジットへのアクセスを前提としている。
本稿では,ロジットアクセスのないAPIのみのLCMに適した新しいCP手法を提案する。(2)予測セットのサイズを最小化し,(3)ユーザ定義のカバレッジの統計的保証を保証する。
- 参考スコア(独自算出の注目度): 5.922444371605447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to address the pervasive challenge of quantifying uncertainty in large language models (LLMs) without logit-access. Conformal Prediction (CP), known for its model-agnostic and distribution-free features, is a desired approach for various LLMs and data distributions. However, existing CP methods for LLMs typically assume access to the logits, which are unavailable for some API-only LLMs. In addition, logits are known to be miscalibrated, potentially leading to degraded CP performance. To tackle these challenges, we introduce a novel CP method that (1) is tailored for API-only LLMs without logit-access; (2) minimizes the size of prediction sets; and (3) ensures a statistical guarantee of the user-defined coverage. The core idea of this approach is to formulate nonconformity measures using both coarse-grained (i.e., sample frequency) and fine-grained uncertainty notions (e.g., semantic similarity). Experimental results on both close-ended and open-ended Question Answering tasks show our approach can mostly outperform the logit-based CP baselines.
- Abstract(参考訳): 本研究では,ロジットアクセスを伴わない大規模言語モデル(LLM)における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。
Conformal Prediction (CP) は、そのモデルに依存しない分布のない特徴で知られており、様々なLSMやデータ分布に対して望ましいアプローチである。
しかし、既存のLCMのCPメソッドは一般的に、APIのみのLCMでは利用できないロジットへのアクセスを前提としている。
さらに、ロジットの誤校正が知られており、CP性能の低下につながる可能性がある。
これらの課題に対処するために,(1)ロジットアクセスのないAPIのみのLCMに適したCP手法,(2)予測セットのサイズを最小化すること,(3)ユーザ定義カバレッジの統計的保証を確保することを提案する。
このアプローチの中核となる考え方は、粗粒度(サンプル周波数)と細粒度不確実性(セマンティック類似性など)の両方を用いて非整合測度を定式化することである。
クローズドとオープンエンドの両方の質問応答タスクの実験結果から,我々のアプローチはロジットベースのCPベースラインよりも優れていることがわかった。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Few-shot Open Relation Extraction with Gaussian Prototype and Adaptive Margin [15.118656235473921]
no-of-the-above (FsRE with NOTA) によるほとんどショット関係抽出は、未知のクラスを持つ数ショットシナリオでラベルを予測することを目的としている。
GPAM for FsRE with NOTA という,ガウスプロトタイプと適応マージンに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T03:16:09Z) - Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning [17.01133761213624]
本研究では,各ステップに残るミドルトークンの数をモデルに予測する学習目標として,Horizon-Length Prediction (HLP)を提案する。
HLPはファイルレベルとリポジトリレベルの異なるベンチマークでFIMのパフォーマンスを最大24%向上させ、非現実的なポストプロセッシング手法を使わずに改善する。
論文 参考訳(メタデータ) (2024-10-04T02:53:52Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - One-bit Submission for Locally Private Quasi-MLE: Its Asymptotic
Normality and Limitation [3.050919759387985]
ローカルディファレンシャルプライバシ(英: Local differential privacy、LDP)は、信頼できないデータキュレーターを含む統計調査に適した情報理論のプライバシ定義である。
LDP QMLEを構築するには,長時間の待ち時間,通信コスト,ログ型関数の導関数の有界性仮定などにより,現実の大規模サーベイシステムの実装が困難である。
我々はこれらの問題なしに代替の LDP プロトコルを提供し、大規模なサーベイに容易にデプロイできる可能性がある。
論文 参考訳(メタデータ) (2022-02-15T05:04:59Z) - Learning, compression, and leakage: Minimising classification error via
meta-universal compression principles [87.054014983402]
学習シナリオのための圧縮技法の有望なグループは、正規化極大(NML)符号化である。
ここでは,教師付き分類問題に対するNMLに基づく意思決定戦略を検討し,多種多様なモデルに適用した場合にPAC学習を実現することを示す。
本手法の誤分類率は,プライバシに敏感なシナリオにおいて,データ漏洩の可能性を定量化するための指標である最大リークによって上限づけられていることを示す。
論文 参考訳(メタデータ) (2020-10-14T20:03:58Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。