論文の概要: LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis
- arxiv url: http://arxiv.org/abs/2502.20589v1
- Date: Thu, 27 Feb 2025 23:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:32.606661
- Title: LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis
- Title(参考訳): LLMにはリズムがある - 学生間時間とネットワークトラフィック分析を用いた大規模言語モデルのフィンガープリント
- Authors: Saeif Alhazbi, Ahmed Mohamed Hussain, Gabriele Oligeri, Panos Papadimitratos,
- Abstract要約: 本稿では, リアルタイムに機能する新しい受動的・非侵襲的な指紋認証手法を提案する。
連続トークン間のITT(Inter-Token Times)時間間隔を測定することで,異なる言語モデルを高精度に識別できることがわかった。
- 参考スコア(独自算出の注目度): 2.4999074238880485
- License:
- Abstract: As Large Language Models (LLMs) become increasingly integrated into many technological ecosystems across various domains and industries, identifying which model is deployed or being interacted with is critical for the security and trustworthiness of the systems. Current verification methods typically rely on analyzing the generated output to determine the source model. However, these techniques are susceptible to adversarial attacks, operate in a post-hoc manner, and may require access to the model weights to inject a verifiable fingerprint. In this paper, we propose a novel passive and non-invasive fingerprinting technique that operates in real-time and remains effective even under encrypted network traffic conditions. Our method leverages the intrinsic autoregressive generation nature of language models, which generate text one token at a time based on all previously generated tokens, creating a unique temporal pattern like a rhythm or heartbeat that persists even when the output is streamed over a network. We find that measuring the Inter-Token Times (ITTs)-time intervals between consecutive tokens-can identify different language models with high accuracy. We develop a Deep Learning (DL) pipeline to capture these timing patterns using network traffic analysis and evaluate it on 16 Small Language Models (SLMs) and 10 proprietary LLMs across different deployment scenarios, including local host machine (GPU/CPU), Local Area Network (LAN), Remote Network, and Virtual Private Network (VPN). The experimental results confirm that our proposed technique is effective and maintains high accuracy even when tested in different network conditions. This work opens a new avenue for model identification in real-world scenarios and contributes to more secure and trustworthy language model deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なドメインや産業の多くの技術エコシステムに統合されるにつれて、どのモデルがデプロイされ、どのモデルとやり取りされているかを特定することは、システムのセキュリティと信頼性にとって重要である。
現在の検証方法は典型的には、ソースモデルを決定するために生成された出力を分析することに依存する。
しかし、これらのテクニックは敵の攻撃に感受性があり、ホット後の操作で動作し、検証可能な指紋を注入するためにモデルウェイトにアクセスする必要があるかもしれない。
本稿では,リアルタイムに動作し,暗号化されたネットワークトラフィック条件下でも有効である,受動的で非侵襲的なフィンガープリント技術を提案する。
提案手法は言語モデルの本質的な自己回帰生成特性を利用して,前述したすべてのトークンに基づいて1つのトークンを同時に生成し,その出力がネットワーク上でストリームされた場合でも持続するリズムや心拍のようなユニークな時間パターンを生成する。
連続トークン間のITT(Inter-Token Times)時間間隔を測定することで,異なる言語モデルを高精度に識別できることがわかった。
我々は、ネットワークトラフィック分析を用いて、これらのタイミングパターンをキャプチャし、ローカルホストマシン(GPU/CPU)、ローカルエリアネットワーク(LAN)、リモートネットワーク(Remote Network)、仮想プライベートネットワーク(VPN)など、さまざまなデプロイメントシナリオにおける16のSLMと10の独自LLMで評価する。
実験の結果,提案手法は有効であり,異なるネットワーク条件でテストしても高い精度を維持していることがわかった。
この作業は、現実世界のシナリオにおけるモデル識別のための新たな道を開き、よりセキュアで信頼性の高い言語モデルのデプロイメントに貢献する。
関連論文リスト
- Invisible Traces: Using Hybrid Fingerprinting to identify underlying LLMs in GenAI Apps [0.0]
大規模言語モデル(LLM)のフィンガープリントは、AI統合アプリケーションのセキュリティと透明性を保証するために欠かせないものとなっている。
静的および動的フィンガープリント技術を統合することにより,これらの課題に対処する新しいフィンガープリントフレームワークを提案する。
提案手法は, 動的環境下でのLDMの高精度かつ堅牢なフィンガープリントを可能にするため, 建築特性と挙動特性を同定する。
論文 参考訳(メタデータ) (2025-01-30T19:15:41Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference [6.0189674528771]
本稿では、ディープラーニングモデルに関連するプライバシとセキュリティの問題に対処する。
ディープニューラルネットワークモデルは、現代のAIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能する。
パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-28T19:55:11Z) - Supervised learning of spatial features with STDP and homeostasis using Spiking Neural Networks on SpiNNaker [42.057348666938736]
本稿では,スパイクタイミング依存塑性(STDP)とホメオスタシスを用いて,スパイクニューラルネットワーク(SNN)の教師あり学習を行う新しい手法を提案する。
SNNは1つまたは複数のパターンを認識するように訓練され、ネットワークのパフォーマンスを測定するためにパフォーマンスメトリクスが抽出される。
空間パターンを検出するためのSNNの訓練方法は、静的画像のパターン認識やコンピュータネットワークのトラフィック解析に応用できる。
論文 参考訳(メタデータ) (2023-12-05T10:53:31Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - A Network Classification Method based on Density Time Evolution Patterns
Extracted from Network Automata [0.0]
そこで我々は,密度時間進化パターン(D-TEP)と状態密度時間進化パターン(SD-TEP)とを識別する,分類のための記述子として使用する情報の代替源を提案する。
その結果,従来の5つの合成ネットワークデータベースと7つの実世界のデータベースと比較すると,顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-11-18T15:27:26Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。