論文の概要: The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive
- arxiv url: http://arxiv.org/abs/2604.25634v1
- Date: Tue, 28 Apr 2026 13:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.876165
- Title: The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive
- Title(参考訳): LLM出力の意外な普遍性:リアルタイム検証プリミティブ
- Authors: Alex Bogdan, Adrian de Valois-Franklin,
- Abstract要約: CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report a striking statistical regularity in frontier LLM outputs that enables a CPU-only scoring primitive running at 2.6 microseconds per token, with estimated latency up to 100,000$\times$ (five orders of magnitude) below existing sampling-based detectors. Across six contemporary models from five independent vendors, two generation sizes, and five held-out domains, token rank-frequency distributions converge to the same two-parameter Mandelbrot ranking distribution, with 34 of 36 model-by-domain fits exceeding $R^{2} = 0.94$ and 35 of 36 favoring Mandelbrot over Zipf by AIC. The shared family does not collapse the models into statistical duplicates. Fitted Mandelbrot parameters remain cleanly separable between models: the cross-model spread in $q$ (1.63 to 3.69) exceeds its per-model bootstrap standard deviation (0.03 to 0.10) by more than an order of magnitude, yielding tens of standard deviations of separation per few thousand output tokens. Two capabilities follow. First, statistical model fingerprinting: text from a vendor-delivered LLM can be tested against its claimed model family without cryptographic watermarks or access to model internals, supporting provenance verification and silent-substitution audits. Second, a model-agnostic reference distribution for black-box output assessment, from which we derive a single-pass scoring primitive that composes with model log probabilities when available and degrades to a rank-only mode usable on closed APIs. Pilot results on FRANK, TruthfulQA, and HaluEval map where the primitive helps (lexical anomalies, unsupported entities) and where it structurally cannot (reasoning errors in domain-appropriate vocabulary). We position the primitive as a first-pass triage layer in compound evaluation stacks, not as a replacement for sampling-based or source-conditioned verifiers.
- Abstract(参考訳): 我々は,CPUのみのスコアリングプリミティブをトークン当たり2.6マイクロ秒で実行し,既存のサンプリングベース検出器より最大10,000$\times$(5桁)の遅延を推定する。
5つの独立ベンダーの6つの現代モデル、2世代サイズ、5つの保持領域において、トークンランク周波数分布は同じ2パラメータのマンデルブロットランク分布に収束し、36のモデル・バイ・ドメインのうち34のモデル・バイ・ドメインが$R^{2} = 0.94$、36のモデル・バイ・ドメインはAICによるZipfよりもマンデルブロットの方が好ましい。
共有族は、モデルを統計的重複に分解しない。
q$ (1.63から3.69) で展開されたクロスモデルは、モデルごとのブートストラップ標準偏差(0.03から0.10)を桁違いに越え、数千の出力トークンで分離の標準偏差が数十個も生じる。
2つの能力がある。
まず、統計モデルフィンガープリント:ベンダーが提供したLCMのテキストは、暗号的な透かしやモデル内部へのアクセスなしに、請求されたモデルファミリに対してテストすることができる。
第二に、ブラックボックス出力評価のためのモデルに依存しない参照分布から、利用可能なモデルログ確率で構成されるシングルパススコアプリミティブを導出し、クローズドAPIで使用可能なランクオンリーモードに格下げする。
パイロットはFRANK、TruthfulQA、HaluEvalマップで、プリミティブは(語彙異常、サポート対象エンティティ)、構造的に不可能な(ドメインに適した語彙の誤りを引き起こす)。
我々は、プリミティブをサンプリングベースやソース条件検証の代替ではなく、複合評価スタックの1パストリアージ層として位置づける。
関連論文リスト
- AttnDiff: Attention-based Differential Fingerprinting for Large Language Models [17.46604955122771]
textscAttnDiffは本質的な情報収集行動を通じてモデルから指紋を抽出する。
textscAttnDiffは、制御されたセマンティックコンフリクトを誘発する最小限のプロンプトペアをプローブする。
論文 参考訳(メタデータ) (2026-04-07T06:57:47Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。
バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。
現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文 参考訳(メタデータ) (2026-01-08T22:33:12Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
APIプロバイダは、基本モデルの定量化、透かし、微調整を行い、出力分布を変更することができる。
モデル平等テスト(Model Equality Testing)は,2サンプルテスト問題である。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Convergence guarantee for consistency models [9.893455771918793]
本稿では,新しい一段階生成モデルであるCM(Consistency Models)の収束保証について述べる。
スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMは1ステップで任意の現実的なデータ分布から、小さな$W$エラーで効率的にサンプリングすることができる。
論文 参考訳(メタデータ) (2023-08-22T13:57:35Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。