Fugu-MT 論文翻訳(概要): API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access

論文の概要: API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access

arxiv url: http://arxiv.org/abs/2403.01216v1
Date: Sat, 2 Mar 2024 14:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 14:37:46.415820
Title: API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access
Title（参考訳）: APIが十分:ロジットアクセシブのない大規模言語モデルのコンフォーマル予測
Authors: Jiayuan Su, Jing Luo, Hongwei Wang, Lu Cheng
Abstract要約: 本研究では,ロジットアクセスを伴わない大規模言語モデル (LLM) における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。 LLM の既存の Conformal Prediction (CP) メソッドは一般的に、APIのみの LLM では利用できないロジットへのアクセスを前提としている。本稿では,ロジットアクセスのないAPIのみのLCMに適した新しいCP手法を提案する。(2)予測セットのサイズを最小化し,(3)ユーザ定義のカバレッジの統計的保証を保証する。
参考スコア（独自算出の注目度）: 6.469845010476217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study aims to address the pervasive challenge of quantifying uncertainty in large language models (LLMs) without logit-access. Conformal Prediction (CP), known for its model-agnostic and distribution-free features, is a desired approach for various LLMs and data distributions. However, existing CP methods for LLMs typically assume access to the logits, which are unavailable for some API-only LLMs. In addition, logits are known to be miscalibrated, potentially leading to degraded CP performance. To tackle these challenges, we introduce a novel CP method that (1) is tailored for API-only LLMs without logit-access; (2) minimizes the size of prediction sets; and (3) ensures a statistical guarantee of the user-defined coverage. The core idea of this approach is to formulate nonconformity measures using both coarse-grained (i.e., sample frequency) and fine-grained uncertainty notions (e.g., semantic similarity). Experimental results on both close-ended and open-ended Question Answering tasks show our approach can mostly outperform the logit-based CP baselines.
Abstract（参考訳）: 本研究では,ロジットアクセスを伴わない大規模言語モデル(LLM)における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。 Conformal Prediction (CP) はモデルに依存しない分布のない特徴で知られており、様々なLSMやデータ分布に望ましいアプローチである。しかし、既存のLCMのCPメソッドは、APIのみのLCMでは利用できないロジットへのアクセスを前提としている。さらに、ロジットの誤校正が知られており、CP性能の低下につながる可能性がある。これらの課題に対処するために,(1)ロジットアクセスのないAPIのみのLCMに適したCP手法,(2)予測セットのサイズを最小化すること,(3)ユーザ定義カバレッジの統計的保証を確保することを提案する。このアプローチの中核となる考え方は、粗粒度(サンプル周波数)と細粒度不確実性(セマンティック類似性など)の両方を用いて非整合測度を定式化することである。クローズドとオープンエンドの両方の質問応答タスクの実験結果から,我々のアプローチはロジットベースのCPベースラインよりも優れていることがわかった。

関連論文リスト

Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文参考訳（メタデータ） (2025-06-05T18:26:14Z)
Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文参考訳（メタデータ） (2025-04-09T00:04:07Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。 4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文参考訳（メタデータ） (2024-12-10T22:57:57Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Few-shot Open Relation Extraction with Gaussian Prototype and Adaptive Margin [15.118656235473921]
no-of-the-above (FsRE with NOTA) によるほとんどショット関係抽出は、未知のクラスを持つ数ショットシナリオでラベルを予測することを目的としている。 GPAM for FsRE with NOTA という,ガウスプロトタイプと適応マージンに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-27T03:16:09Z)
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning [17.01133761213624]
本研究では,各ステップに残るミドルトークンの数をモデルに予測する学習目標として,Horizon-Length Prediction (HLP)を提案する。 HLPはファイルレベルとリポジトリレベルの異なるベンチマークでFIMのパフォーマンスを最大24%向上させ、非現実的なポストプロセッシング手法を使わずに改善する。
論文参考訳（メタデータ） (2024-10-04T02:53:52Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。本稿では,これらの課題に対処する新しい枠組みを提案する。意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文参考訳（メタデータ） (2024-05-22T17:13:49Z)
One-bit Submission for Locally Private Quasi-MLE: Its Asymptotic Normality and Limitation [3.050919759387985]
ローカルディファレンシャルプライバシ(英: Local differential privacy、LDP)は、信頼できないデータキュレーターを含む統計調査に適した情報理論のプライバシ定義である。 LDP QMLEを構築するには,長時間の待ち時間,通信コスト,ログ型関数の導関数の有界性仮定などにより,現実の大規模サーベイシステムの実装が困難である。我々はこれらの問題なしに代替の LDP プロトコルを提供し、大規模なサーベイに容易にデプロイできる可能性がある。
論文参考訳（メタデータ） (2022-02-15T05:04:59Z)
Learning, compression, and leakage: Minimising classification error via meta-universal compression principles [87.054014983402]
学習シナリオのための圧縮技法の有望なグループは、正規化極大(NML)符号化である。ここでは,教師付き分類問題に対するNMLに基づく意思決定戦略を検討し,多種多様なモデルに適用した場合にPAC学習を実現することを示す。本手法の誤分類率は,プライバシに敏感なシナリオにおいて,データ漏洩の可能性を定量化するための指標である最大リークによって上限づけられていることを示す。
論文参考訳（メタデータ） (2020-10-14T20:03:58Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。