論文の概要: Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs
- arxiv url: http://arxiv.org/abs/2604.18179v1
- Date: Mon, 20 Apr 2026 12:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.864642
- Title: Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs
- Title(参考訳): SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs (特集 SAE-Feature Traces)
- Authors: Ziyang Liu,
- Abstract要約: ホスト型LLMプロバイダにはサイレント代替インセンティブがあり、より強力なモデルを宣伝し、より安価な応答を提供する。
このギャップを埋めるコミットオープンプロトコルを提案する。
プロトコルを3つのバックボーン(Qwen3-1.7B、Gemma-2-2B、およびGemma-2-9Bへの4.5倍スケールアップ)でインスタンス化する。
- 参考スコア(独自算出の注目度): 2.6382975801439836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hosted-LLM providers have a silent-substitution incentive: advertise a stronger model while serving cheaper replies. Probe-after-return schemes such as SVIP leave a parallel-serve side-channel, since a dishonest provider can route the verifier's probe to the advertised model while serving ordinary users from a substitute. We propose a commit-open protocol that closes this gap. Before any opening request, the provider commits via a Merkle tree to a per-position sparse-autoencoder (SAE) feature-trace sketch of its served output at a published probe layer. A verifier opens random positions, scores them against a public named-circuit probe library calibrated with cross-backend noise, and decides with a fixed-threshold joint-consistency z-score rule. We instantiate the protocol on three backbones -- Qwen3-1.7B, Gemma-2-2B, and a 4.5x scale-up to Gemma-2-9B with a 131k-feature SAE. Of 17 attackers spanning same-family lifts, cross-family substitutes, and rank-<=128 adaptive LoRA, all are rejected at a shared, scale-stable threshold; the same attackers all evade a matched SVIP-style parallel-serve baseline. A white-box end-to-end attack that backpropagates through the frozen SAE encoder does not close the margin, and a feature-forgery attacker that never runs M_hon is bounded in closed form by an intrinsic-dimension argument. Commitment adds <=2.1% to forward-only wall-clock at batch 32.
- Abstract(参考訳): ホスト型LLMプロバイダにはサイレント代替インセンティブがあり、より強力なモデルを宣伝し、より安価な応答を提供する。
SVIPのような後戻りスキームは、検証者のプローブを広告モデルにルーティングし、通常のユーザを代用品から提供できるため、並列サービス側チャネルを残している。
このギャップを埋めるコミットオープンプロトコルを提案する。
オープニングリクエストの前に、プロバイダはMerkleツリーを介して、発行されたプローブ層で提供される出力のSAE(per-position sparse-autoencoder)フィーチャトレーススケッチにコミットする。
検証器は、ランダムな位置を開き、裏側ノイズで校正された公称サーキットプローブライブラリに対してスコアし、固定閾値の合同一致zスコアルールで判定する。
プロトコルを3つのバックボーン(Qwen3-1.7B、Gemma-2-2B、およびGemma-2-9Bへの4.5倍スケールアップ)でインスタンス化する。
同じファミリーリフト、クロスファミリーの代替品、ランク<=128の適応型LoRAにまたがる17の攻撃者のうち、すべてが共有されたスケール安定しきい値で拒否される。
凍結されたSAEエンコーダをバックプロパガンダするホワイトボックスのエンドツーエンドアタックはマージンを閉じず、M_honを実行しないフィーチャーフォージェィアタックは固有の次元引数によって閉じた形でバウンドされる。
コミットは、バッチ32でフォワードのみの壁時計に<=2.1%追加される。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - VeriX-Anon: A Multi-Layered Framework for Mathematically Verifiable Outsourced Target-Driven Data Anonymization [0.0]
VeriX-Anonは、オープンソースのターゲット駆動k匿名化のための多層検証フレームワークである。
認証決定木のメルクル式ハッシュによる決定論的検証、ランダムフォレスト決定境界付近の境界センチネルによる確率的検証、および暗号識別子による正確な重複性ツインズの組み合わせである。
12のシナリオのうち11の偏差を正しく検出した。
論文 参考訳(メタデータ) (2026-04-14T08:22:18Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Repurposing Backdoors for Good: Ephemeral Intrinsic Proofs for Verifiable Aggregation in Cross-silo Federated Learning [30.440611659881494]
暗号証明からtextitIntrinsic Proofs へ移行する軽量アーキテクチャを提案する。
モデルパラメータに直接検証信号を埋め込むために、カタストロフィックフォーッティングを利用する。
我々の手法は、暗号ベースラインと比較して、ResNet-18で1000ドル以上のスピードアップを実現し、大規模モデルに効果的にスケールする。
論文 参考訳(メタデータ) (2026-03-11T12:04:18Z) - Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion [0.0]
ハイブリッド検索-拡張生成(RAG)パイプラインは、ベクトル類似性探索と知識グラフ拡張を組み合わせたマルチホップ推論である。
ベクター検索した"シード"チャンクがエンティティリンクを介してセンシティブなグラフ近傍にピボットできることを示し、テナント間のデータ漏洩を引き起こす。
ベクトル-グラフ境界を利用する7つの検索型Pivotアタックを提示し、逆噴射は不要であることを示す。
論文 参考訳(メタデータ) (2026-02-09T13:55:04Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。