論文の概要: Multimodal Reasoning with LLM for Encrypted Traffic Interpretation: A Benchmark
- arxiv url: http://arxiv.org/abs/2604.08140v1
- Date: Thu, 09 Apr 2026 11:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.90092
- Title: Multimodal Reasoning with LLM for Encrypted Traffic Interpretation: A Benchmark
- Title(参考訳): 暗号化トラフィック解釈のためのLLMを用いたマルチモーダル推論:ベンチマーク
- Authors: Longgang Zhang, Xiaowei Fu, Fuxiang Huang, Lei Zhang,
- Abstract要約: 本稿では、物理的トラフィックエンコーディングと意味解釈を橋渡しするマルチモーダル推論アーキテクチャである、エンドツーエンドのトラフィック言語表現フレームワーク(mmTraffic)を提案する。
認識中心のトラフィックエンコーダと認識中心のLLM生成器により、mmTrafficは、保証されたカテゴリ予測で洗練されたトラフィック解釈を実現する。
- 参考スコア(独自算出の注目度): 12.257114438374975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network traffic, as a key media format, is crucial for ensuring security and communications in modern internet infrastructure. While existing methods offer excellent performance, they face two key bottlenecks: (1) They fail to capture multidimensional semantics beyond unimodal sequence patterns. (2) Their black box property, i.e., providing only category labels, lacks an auditable reasoning process. We identify a key factor that existing network traffic datasets are primarily designed for classification and inherently lack rich semantic annotations, failing to generate human-readable evidence report. To address data scarcity, this paper proposes a Byte-Grounded Traffic Description (BGTD) benchmark for the first time, combining raw bytes with structured expert annotations. BGTD provides necessary behavioral features and verifiable chains of evidence for multimodal reasoning towards explainable encrypted traffic interpretation. Built upon BGTD, this paper proposes an end-to-end traffic-language representation framework (mmTraffic), a multimodal reasoning architecture bridging physical traffic encoding and semantic interpretation. In order to alleviate modality interference and generative hallucinations, mmTraffic adopts a jointly-optimized perception-cognition architecture. By incorporating a perception-centered traffic encoder and a cognition-centered LLM generator, mmTraffic achieves refined traffic interpretation with guaranteed category prediction. Extensive experiments demonstrate that mmTraffic autonomously generates high-fidelity, human-readable, and evidence-grounded traffic interpretation reports, while maintaining highly competitive classification accuracy comparing to specialized unimodal model (e.g., NetMamba). The source code is available at https://github.com/lgzhangzlg/Multimodal-Reasoning-with-LLM-for-Encrypted-Traffic-Interpretation-A-B enchmark
- Abstract(参考訳): ネットワークトラフィックは、鍵となるメディアフォーマットとして、現代のインターネットインフラにおけるセキュリティと通信の確保に不可欠である。
既存の手法は優れた性能を提供するが、それらは2つの主要なボトルネックに直面している。
2)ブラックボックスのプロパティ、すなわちカテゴリラベルのみを提供するものは、監査可能な推論プロセスが欠如している。
既存のネットワークトラフィックデータセットは、主に分類用に設計されており、本質的にはリッチなセマンティックアノテーションが欠如しており、人間可読なエビデンスレポートの生成に失敗している。
本稿では,データ不足に対処するために,BGTD(Byte-Grounded Traffic Description)ベンチマークを初めて提案する。
BGTDは、説明可能な暗号化されたトラフィック解釈へのマルチモーダル推論のための必要な行動特徴と検証可能な証拠の連鎖を提供する。
本稿では,BGTDを基盤として,物理的トラフィックエンコーディングと意味解釈を橋渡しするマルチモーダル推論アーキテクチャである,エンドツーエンドのトラフィック言語表現フレームワーク(mmTraffic)を提案する。
モダリティ干渉と生成幻覚を緩和するために、mmTrafficは共同最適化された知覚認知アーキテクチャを採用する。
認識中心のトラフィックエンコーダと認識中心のLLMジェネレータを組み込むことにより、mmTrafficは、保証されたカテゴリ予測による洗練されたトラフィック解釈を実現する。
大規模な実験により、mTrafficは高忠実で、可読性、エビデンスに基づく交通解釈レポートを自律的に生成し、特殊な単調モデル(NetMambaなど)と比較して高度に競争力のある分類精度を維持した。
ソースコードはhttps://github.com/lgzhangzlg/Multimodal-Reasoning-with-LLM-for-Encrypted-Traffic-Interpretation-A-B enchmarkで公開されている。
関連論文リスト
- TrafficMoE: Heterogeneity-aware Mixture of Experts for Encrypted Traffic Classification [12.748275751587363]
暗号化されたトラフィック分類は、ネットワークセキュリティにとって重要なタスクである。
一つのサイズにフィットする静的デザインは、本質的に欠陥がある。
静的モデリングのボトルネックを突破するフレームワークであるTrafficMoEを提案する。
論文 参考訳(メタデータ) (2026-03-31T10:05:54Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - ReGAIN: Retrieval-Grounded AI Framework for Network Traffic Analysis [5.887997322139195]
ReGAINは、トラフィックの要約、検索拡張生成(RAG)、および透過的かつ正確なネットワークトラフィック分析のための大規模言語モデル(LLM)を組み合わせたフレームワークである。
実世界のトラフィックデータセットからICMP ping flood と TCP Syn flood のトレースを評価した。
論文 参考訳(メタデータ) (2025-12-23T00:16:14Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - MIETT: Multi-Instance Encrypted Traffic Transformer for Encrypted Traffic Classification [59.96233305733875]
トラフィックの分類は、セキュリティの脅威を検出し、ネットワーク管理を最適化するために不可欠である。
トークンレベルとパケットレベルの両方の関係をキャプチャするMulti-Instance Encrypted Traffic Transformer (MIETT)を提案する。
MIETTは5つのデータセットにまたがって結果を達成し、暗号化されたトラフィックの分類と複雑なネットワーク動作の理解の有効性を示す。
論文 参考訳(メタデータ) (2024-12-19T12:52:53Z) - Cross-domain Multi-step Thinking: Zero-shot Fine-grained Traffic Sign Recognition in the Wild [49.20086587208214]
クロスドメイン マルチステップシンキング (CdMT) は、野生におけるゼロショットきめ細かなトラフィックサイン認識(TSR)の性能を改善することを提案した。
CdMTはトレーニングデータとは独立であり、単純で均一な命令のみを必要とするため、クロスカントリーのTSRを実現することができる。
フレームワークは5つのデータセット上の他の最先端メソッドよりも優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2024-09-03T02:08:47Z) - Lens: A Foundation Model for Network Traffic [19.3652490585798]
Lensは、T5アーキテクチャを活用して、大規模な未ラベルデータから事前訓練された表現を学習するネットワークトラフィックの基礎モデルである。
Masked Span Prediction(MSP)、Packet Order Prediction(POP)、Homologous Traffic Prediction(HTP)の3つの異なるタスクを組み合わせた新しい損失を設計する。
論文 参考訳(メタデータ) (2024-02-06T02:45:13Z) - TFE-GNN: A Temporal Fusion Encoder Using Graph Neural Networks for
Fine-grained Encrypted Traffic Classification [35.211600580761726]
本稿では,PMI(point-wise mutual information)とテンポラルフュージョン(Temporal Fusion)というモデルに基づくバイトレベルのトラフィックグラフ構築手法を提案する。
特に,デュアル埋め込み層,GNNベースのトラヒックグラフエンコーダ,およびクロスゲート機能融合機構を設計する。
2つの実際のデータセットに対する実験結果から、TFE-GNNは、詳細な暗号化されたトラフィック分類タスクにおいて、最先端の複数の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-31T14:32:40Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。