論文の概要: Auditing Pay-Per-Token in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05181v1
- Date: Sun, 05 Oct 2025 17:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.894092
- Title: Auditing Pay-Per-Token in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるペイ・パー・トークンの監査
- Authors: Ander Artola Velasco, Stratis Tsirtsis, Manuel Gomez-Rodriguez,
- Abstract要約: トークンの誤レポートを検出するため,マーチンゲール理論に基づく監査フレームワークを開発した。
当社のフレームワークは,プロバイダの(ミス-)レポートポリシに関わらず,トークンの誤レポートを常に検出することが保証されています。
- 参考スコア(独自算出の注目度): 11.795056270534287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of users rely on a market of cloud-based services to obtain access to state-of-the-art large language models. However, it has been very recently shown that the de facto pay-per-token pricing mechanism used by providers creates a financial incentive for them to strategize and misreport the (number of) tokens a model used to generate an output. In this paper, we develop an auditing framework based on martingale theory that enables a trusted third-party auditor who sequentially queries a provider to detect token misreporting. Crucially, we show that our framework is guaranteed to always detect token misreporting, regardless of the provider's (mis-)reporting policy, and not falsely flag a faithful provider as unfaithful with high probability. To validate our auditing framework, we conduct experiments across a wide range of (mis-)reporting policies using several large language models from the $\texttt{Llama}$, $\texttt{Gemma}$ and $\texttt{Ministral}$ families, and input prompts from a popular crowdsourced benchmarking platform. The results show that our framework detects an unfaithful provider after observing fewer than $\sim 70$ reported outputs, while maintaining the probability of falsely flagging a faithful provider below $\alpha = 0.05$.
- Abstract(参考訳): 数百万のユーザがクラウドベースのサービスを使って、最先端の大規模言語モデルにアクセスしている。
しかし、プロバイダが使用する事実上の有償価格設定機構が、アウトプット生成に使用する(数)トークンのストラテジズと誤レポートを行うための金銭的インセンティブを生み出していることが、最近になって示されている。
本稿では,トークンの不正レポートを逐次クエリする信頼できる第三者監査者を,マーチンゲール理論に基づく監査フレームワークを開発する。
重要なことは、当社のフレームワークは、プロバイダの(ミス-)報告ポリシーにかかわらず、常にトークンの誤レポートを検出することが保証されており、不信なプロバイダに高い確率で不信を警告しないことを示しています。
監査フレームワークを検証するために、私たちは、$\texttt{Llama}$, $\texttt{Gemma}$および$\texttt{Ministral}$ familyのいくつかの大きな言語モデルを使用して、幅広い(ミス-)レポートポリシーの実験を行い、人気のあるクラウドソースのベンチマークプラットフォームからの入力プロンプトを実行します。
その結果、我々のフレームワークは、$\sim 70$のレポートアウトプットを観測した後、不誠実なプロバイダを検出し、その一方で、$\alpha = 0.05$以下の忠実なプロバイダを誤ってフラグ付けする確率を維持していることがわかった。
関連論文リスト
- Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - Probabilistically Tightened Linear Relaxation-based Perturbation Analysis for Neural Network Verification [83.25968588249776]
本稿では,LiRPAに基づく手法とサンプリングに基づく手法を組み合わせることで,厳密な中間到達性集合を計算できる新しいフレームワークを提案する。
無視可能な計算オーバーヘッドでは、$textttPT-LiRPA$は推定された到達可能な集合を利用し、ニューラルネットワークの出力の上下線形境界を著しく締め付ける。
論文 参考訳(メタデータ) (2025-07-07T18:45:53Z) - Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives [13.91198481393699]
我々は,疑念を抱くことなく,利用者を著しく過給できる効率的なアルゴリズムを開発した。
戦略化のための金銭的インセンティブをなくすためには、価格設定メカニズムは、文字数に応じてトークンを線形に価格設定する必要がある。
論文 参考訳(メタデータ) (2025-05-27T18:02:12Z) - CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs [13.31195673556853]
隠れトークンの量と意味的妥当性の両方を検査する検証フレームワークであるCoInを提案する。
実験では、信頼できる第三者監査官としてデプロイされたCoInが、成功率94.7%に達するトークン数インフレーションを効果的に検出できることが示されている。
論文 参考訳(メタデータ) (2025-05-19T23:39:23Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - ProofWala: Multilingual Proof Data Synthesis and Theorem-Proving [53.67926215943612]
$rm P Small ROOFW Small ALA$は、ニューラル定理プローサと2つの確立された対話的証明アシスタント(ITP)間の相互作用を可能にする
私たちは、$rm P Small ROOFWsmall ALA$生成のCoqとLeanのデータの組み合わせでトレーニングされたモデルが、標準のprov-at-k$メトリック上で、Lean-onlyとCoq-onlyのモデルを上回っていることを示します。
論文 参考訳(メタデータ) (2025-02-07T05:35:46Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。