論文の概要: DiFR: Inference Verification Despite Nondeterminism
- arxiv url: http://arxiv.org/abs/2511.20621v1
- Date: Tue, 25 Nov 2025 18:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.627541
- Title: DiFR: Inference Verification Despite Nondeterminism
- Title(参考訳): 非決定性にもかかわらずDiFR:推論検証
- Authors: Adam Karvonen, Daniel Reuter, Roy Rinberg, Luke Marks, Adrià Garriga-Alonso, Keri Warr,
- Abstract要約: 同じ推論プロセスを2回再実行することは、良質な数値ノイズのために異なる結果をもたらすことが多い。
Token-DiFRは、同一のランダムシードに条件付された信頼参照実装による予測と、生成されたトークンを比較して、推論出力を検証する手法である。
さらに,ランダムなプロジェクションを用いてアクティベーションをコンパクトな指紋に圧縮し,その後の検証を行う Activation-DiFR も導入する。
- 参考スコア(独自算出の注目度): 5.879581944824945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As demand for LLM inference grows, it is becoming increasingly important that providers and their customers can verify that inference processes are performed correctly, without errors or tampering. However, re-running the same inference process twice often leads to different results due to benign numerical noise, making it difficult to distinguish legitimate variation from actual problems. To address this problem, we introduce Token-DiFR (Token-Divergence-From-Reference), a method for verifying inference outputs by comparing generated tokens against predictions made by a trusted reference implementation conditioned on the same random seed. Sampling seed synchronization tightly constrains valid outputs, leaving providers minimal room to deviate from correct inference, which allows output tokens themselves to serve as auditable evidence of correctness at zero additional cost to the provider. Token-DiFR reliably identifies sampling errors, simulated bugs, and model quantization, detecting 4-bit quantization with AUC $>$ 0.999 within 300 output tokens. For applications requiring sample-efficient forward-pass verification, we additionally introduce Activation-DiFR, a scheme that uses random orthogonal projections to compress activations into compact fingerprints for subsequent verification. Activation-DiFR detects 4-bit quantization with AUC $>$ 0.999 using just 2 output tokens, while reducing communication overhead by 25-75% relative to existing methods. We release an open-source integration with vLLM to accelerate practical deployment of verifiable inference.
- Abstract(参考訳): LLM推論の需要が増大するにつれて、プロバイダとその顧客は、エラーや改ざんなしに、推論プロセスが正しく実行されることを検証できることがますます重要になっている。
しかし、同じ推論プロセスを2回再実行することは、良質な数値ノイズによる異なる結果をもたらすことが多く、実際の問題と正当性の違いを区別することは困難である。
この問題を解決するために,同じランダムシード上に条件付き信頼参照実装による予測に対して生成されたトークンを比較して推論出力を検証する手法であるToken-DiFR(Token-Divergence-From-Reference)を導入する。
シード同期のサンプリングは有効な出力を厳しく制限し、プロバイダは正しい推論から逸脱する余地を最小限に抑える。
Token-DiFRはサンプリングエラー、シミュレーションバグ、モデル量子化を確実に識別し、300の出力トークンでAUC$>0.999の4ビット量子化を検出する。
さらに,サンプル効率のよいフォワードパス検証を必要とするアプリケーションに対して,ランダム直交射影を用いてアクティベーションをコンパクトな指紋に圧縮し,その後の検証を行う Activation-DiFR を導入する。
Activation-DiFRは、AUC$>$0.999の4ビット量子化を2つの出力トークンで検出する。
検証可能な推論の実践的な展開を加速するために、vLLMとのオープンソース統合をリリースする。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Constrained Adaptive Rejection Sampling [27.579645342312674]
言語モデル(LM)は、生成した出力が厳密な意味的制約や構文的制約を満たす必要があるアプリケーションでますます使われている。
既存の制約付き生成へのアプローチは、スペクトルに沿って低下する: 欲求的制約付き復号法は、復号時の有効性を強制するが、LMの分布を歪ませる。
本稿では、分布歪みを伴わないRSの試料効率を厳密に改善するアプローチである、適応型サンプリング(CARS)を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:17:26Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Randomized Smoothing Meets Vision-Language Models [6.224335082856828]
ランダムスムーシング(RS)は、機械学習モデルの正確性を保証するために使用される。
生成モデルではRSが引き続き有効であることを示す。
我々は,検体数に対する検体半径と精度を解析的に関連づけたスケーリング法を導出した。
これらの進歩は、最先端のVLMに対して、明確に定義され、計算的に実現可能なロバストネス認証を実現する。
論文 参考訳(メタデータ) (2025-09-19T15:33:22Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - TOPLOC: A Locality Sensitive Hashing Scheme for Trustless Verifiable Inference [7.103455333148043]
大規模言語モデル(LLM)は非常に有能であることが証明されているが、現在フロンティアモデルへのアクセスは推論プロバイダに依存している。
本研究では,この問題に対処する検証可能な新しい手法であるTOPLOCを提案する。
論文 参考訳(メタデータ) (2025-01-27T12:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。