論文の概要: Predictive Auditing of Hidden Tokens in LLM APIs via Reasoning Length Estimation
- arxiv url: http://arxiv.org/abs/2508.00912v1
- Date: Tue, 29 Jul 2025 19:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.68044
- Title: Predictive Auditing of Hidden Tokens in LLM APIs via Reasoning Length Estimation
- Title(参考訳): 推論長推定によるLLM APIにおける隠れトークンの予測監査
- Authors: Ziyao Wang, Guoheng Sun, Yexiao He, Zheyu Shen, Bowei Tian, Ang Li,
- Abstract要約: 商用のLLMサービスは内部の推論トレースを隠蔽し、生成したトークンごとにユーザを課金する。
PALACEは内部トレースにアクセスせずに、プロンプトと応答のペアから隠れた推論トークン数を推定する。
数学、コーディング、医学、一般的な推論のベンチマークの実験は、PALACEが低い相対誤差と強い予測精度を達成することを示している。
- 参考スコア(独自算出の注目度): 7.928002407828304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commercial LLM services often conceal internal reasoning traces while still charging users for every generated token, including those from hidden intermediate steps, raising concerns of token inflation and potential overbilling. This gap underscores the urgent need for reliable token auditing, yet achieving it is far from straightforward: cryptographic verification (e.g., hash-based signature) offers little assurance when providers control the entire execution pipeline, while user-side prediction struggles with the inherent variance of reasoning LLMs, where token usage fluctuates across domains and prompt styles. To bridge this gap, we present PALACE (Predictive Auditing of LLM APIs via Reasoning Token Count Estimation), a user-side framework that estimates hidden reasoning token counts from prompt-answer pairs without access to internal traces. PALACE introduces a GRPO-augmented adaptation module with a lightweight domain router, enabling dynamic calibration across diverse reasoning tasks and mitigating variance in token usage patterns. Experiments on math, coding, medical, and general reasoning benchmarks show that PALACE achieves low relative error and strong prediction accuracy, supporting both fine-grained cost auditing and inflation detection. Taken together, PALACE represents an important first step toward standardized predictive auditing, offering a practical path to greater transparency, accountability, and user trust.
- Abstract(参考訳): 商業LLMサービスは、内部の推論トレースを隠蔽すると同時に、隠れた中間ステップやトークンインフレーションの懸念、潜在的なオーバービルなど、生成したトークンの全てをユーザに対して課金する。
暗号化検証(例えば、ハッシュベースのシグネチャ)は、プロバイダが実行パイプライン全体を制御するときの保証をほとんど提供しません。一方、ユーザ側の予測は、トークンの使用がドメインやプロンプトスタイル間で変動する、推論 LLM 固有の分散に苦労しています。
このギャップを埋めるために、内部トレースにアクセスせずにプロンプトと応答のペアから隠れた推論トークン数を推定するユーザサイドフレームワークであるPALACE(Predictive Auditing of LLM APIs via Reasoning Token Count Estimation)を提案する。
PALACEは、軽量なドメインルータを備えたGRPO拡張適応モジュールを導入し、様々な推論タスクを動的にキャリブレーションし、トークン使用パターンのばらつきを軽減する。
数学, コーディング, 医学, 一般推論のベンチマーク実験により, PALACEは相対誤差が低く, 高い予測精度を達成し, 詳細なコスト監査とインフレーション検出の両方をサポートすることが示された。
まとめると、PALACEは標準化された予測監査に向けた重要な第一歩であり、透明性、説明責任、ユーザ信頼を高めるための実践的なパスを提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services [22.700907666937177]
このポジションペーパーは、Opaque LLM Services(COLS)における新たな説明責任の課題を浮き彫りにしている。
トークンとコールカウントを人工的に膨らませるtextitquantity inflationと、プロバイダが低価格のモデルやツールを静かに置き換えるtextitquality downgradeの2つの主要なリスクを形式化する。
本研究では,COLSとユーザを対象としたモジュール型3層監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T02:26:49Z) - CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs [13.31195673556853]
隠れトークンの量と意味的妥当性の両方を検査する検証フレームワークであるCoInを提案する。
実験では、信頼できる第三者監査官としてデプロイされたCoInが、成功率94.7%に達するトークン数インフレーションを効果的に検出できることが示されている。
論文 参考訳(メタデータ) (2025-05-19T23:39:23Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。