論文の概要: Log Probability Tracking of LLM APIs
- arxiv url: http://arxiv.org/abs/2512.03816v1
- Date: Wed, 03 Dec 2025 14:03:43 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:18.98446
- Title: Log Probability Tracking of LLM APIs
- Title(参考訳): LLM APIのログ確率追跡
- Authors: Timothée Chauvin, Erwan Le Merrer, François Taïani, Gilles Tredan,
- Abstract要約: 既存の監査手法は、利用可能なLLM APIの幅広い範囲に対して、定期的な時間間隔で適用するには高すぎる。
LLMログの確率(logprobs)は通常非決定論的であるが、コスト効率のよい連続監視の基盤として使用できることを示す。
我々は,小規模かつ現実的なモデル変更の文脈における監査手法の感度を測定する手段として,TinyChangeベンチマークを導入した。
- 参考スコア(独自算出の注目度): 4.58249696848172
- License:
- Abstract: When using an LLM through an API provider, users expect the served model to remain consistent over time, a property crucial for the reliability of downstream applications and the reproducibility of research. Existing audit methods are too costly to apply at regular time intervals to the wide range of available LLM APIs. This means that model updates are left largely unmonitored in practice. In this work, we show that while LLM log probabilities (logprobs) are usually non-deterministic, they can still be used as the basis for cost-effective continuous monitoring of LLM APIs. We apply a simple statistical test based on the average value of each token logprob, requesting only a single token of output. This is enough to detect changes as small as one step of fine-tuning, making this approach more sensitive than existing methods while being 1,000x cheaper. We introduce the TinyChange benchmark as a way to measure the sensitivity of audit methods in the context of small, realistic model changes.
- Abstract(参考訳): APIプロバイダを通じてLLMを使用する場合、ユーザは、ダウンストリームアプリケーションの信頼性と研究の再現性に不可欠な特性である、提供されたモデルが時間とともに一貫性を保つことを期待する。
既存の監査手法は、利用可能なLLM APIの幅広い範囲に対して、定期的な時間間隔で適用するには高すぎる。
これは、モデル更新が実際にはほとんど監視されていないことを意味する。
本研究は, LLMログ確率(logprobs)が非決定論的であるのに対して, LLM APIのコスト効率のよい連続監視の基盤として使用できることを示す。
各トークンのログプロブの平均値に基づいて単純な統計的テストを適用し、出力のトークンを1つだけ要求する。
これは、微調整の1ステップまで小さな変更を検出するのに十分であり、このアプローチは既存のメソッドよりも感度が高く、しかも1000倍のコストがかかる。
我々は,小規模かつ現実的なモデル変更の文脈における監査手法の感度を測定する手段として,TinyChangeベンチマークを導入した。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate [0.19676943624884313]
大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
論文 参考訳(メタデータ) (2025-09-01T13:34:21Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach [8.646131951484696]
AuditLLMは様々な大規模言語モデル(LLM)のパフォーマンスを方法論的に監査するために設計された新しいツールである。
堅牢で信頼性があり、一貫性のあるLCMは、同じ質問の可変なフレーズ付きバージョンに対する意味論的に類似した応答を生成することが期待されている。
あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
論文 参考訳(メタデータ) (2024-02-14T17:31:04Z) - (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for
Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。
LLMはサイレントに更新され、非推奨にされる。
これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-11-18T17:11:12Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。