論文の概要: Behavioral Fingerprints for LLM Endpoint Stability and Identity
- arxiv url: http://arxiv.org/abs/2603.19022v1
- Date: Thu, 19 Mar 2026 15:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.226596
- Title: Behavioral Fingerprints for LLM Endpoint Stability and Identity
- Title(参考訳): LLMエンドポイント安定性とアイデンティティのための行動指紋
- Authors: Jonah Leshin, Manish Shah, Ian Timmis, Daniel Kang,
- Abstract要約: 安定モニタは、固定されたプロンプトセットから出力をサンプリングすることで、エンドポイントを定期的にフィンガーする。
制御されたバリデーションでは、モデルファミリ、バージョン、推論スタック、量子化、行動パラメータの変更を検出する。
複数のプロバイダがホストする同じモデルの実世界のモニタリングでは、プロバイダ間および内部の安定性の相違がかなり観察される。
- 参考スコア(独自算出の注目度): 6.5886705394788665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The consistency of AI-native applications depends on the behavioral consistency of the model endpoints that power them. Traditional reliability metrics such as uptime, latency and throughput do not capture behavioral change, and an endpoint can remain "healthy" while its effective model identity changes due to updates to weights, tokenizers, quantization, inference engines, kernels, caching, routing, or hardware. We introduce Stability Monitor, a black-box stability monitoring system that periodically fingerprints an endpoint by sampling outputs from a fixed prompt set and comparing the resulting output distributions over time. Fingerprints are compared using a summed energy distance statistic across prompts, with permutation-test p-values as evidence of distribution shift aggregated sequentially to detect change events and define stability periods. In controlled validation, Stability Monitor detects changes to model family, version, inference stack, quantization, and behavioral parameters. In real-world monitoring of the same model hosted by multiple providers, we observe substantial provider-to-provider and within-provider stability differences.
- Abstract(参考訳): AIネイティブアプリケーションの一貫性は、それらを動かすモデルエンドポイントの振舞いの一貫性に依存する。
従来の信頼性メトリクスであるアップタイム、レイテンシ、スループットは振る舞いの変化を捉えておらず、エンドポイントは"健全"なままであり、一方で、重み、トークン化、量子化、推論エンジン、カーネル、キャッシュ、ルーティング、ハードウェアへのアップデートによって、その効果的なモデルアイデンティティが変更される。
固定されたプロンプトセットから出力をサンプリングし、その結果の出力分布を時間とともに比較することにより、エンドポイントを定期的にフィンガープリンティングするブラックボックス安定化監視システムであるStable Monitorを導入する。
フィンガープリントはプロンプト間の合計エネルギー距離統計値を用いて比較され、置換テストのp-値は、変化イベントを検出し安定周期を定義するために連続的に集計された分布シフトの証拠である。
制御されたバリデーションでは、モデルファミリ、バージョン、推論スタック、量子化、行動パラメータの変更を検出する。
複数のプロバイダがホストする同じモデルの実世界のモニタリングでは、プロバイダ間および内部の安定性の相違がかなり観察される。
関連論文リスト
- When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - Reasoning Stabilization Point: A Training-Time Signal for Stable Evidence and Shortcut Reliance [0.0]
我々は、固定されたプローブ集合上の正規化トークン属性におけるエポック・ツー・エポックな変化として説明ドリフトを定義する。
RSPは内部のドリフトダイナミクスから計算され、アウト・オブ・ディストリビューションデータのチューニングは不要である。
論文 参考訳(メタデータ) (2026-01-12T17:48:05Z) - QDNA-ID Quantum Device Native Authentication [0.0]
QDNA-IDは、物理的量子行動とデジタル検証されたレコードを結びつける信頼チェーンフレームワークである。
機械学習エンジンはエントロピードリフトを追跡し、異常を検出し、進化するパターンに基づいてデバイスを分類する。
QDNA-IDは連続的なフィードバックループとして動作し、量子コンピューティング環境に対する信頼の連鎖を維持する。
論文 参考訳(メタデータ) (2025-11-21T15:40:59Z) - Technical note on Sequential Test-Time Adaptation via Martingale-Driven Fisher Prompting [3.5808917363708743]
M-FISHERは、ストリーミングデータにおける逐次分布シフト検出と安定した適応のための方法である。
検出のために、非整合性スコアから指数的マーチンゲールを構築し、Villeの不等式を適用し、偽アラーム制御の時間一様保証を得る。
適応のために、フィッシャー条件によるプロンプトパラメータの更新は、分布多様体上の自然な勾配降下を実装していることを示す。
論文 参考訳(メタデータ) (2025-10-04T15:31:26Z) - Segmented Confidence Sequences and Multi-Scale Adaptive Confidence Segments for Anomaly Detection in Nonstationary Time Series [0.0]
我々は、SCS(Segmented Confidence Sequences)とMACS(Multi-Scale Adaptive Confidence Segments)の2つの新しい適応しきい値フレームワークを紹介し、実証的に評価する。
Wefer Manufacturingのベンチマークデータセットによる実験では、従来のパーセンタイルやローリング量子化アプローチと比較して、F1スコアの大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-08-08T18:34:54Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios [18.527640606971563]
テスト時間適応(TTA)は、未ラベルのテストデータストリームのみを使用する推論フェーズにおいて、事前訓練されたモデルに分散をテストする。
本稿では,問題に効果的に対応する汎用ロバストテスト時間適応(GRoTTA)法を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:13:49Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。