論文の概要: Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification
- arxiv url: http://arxiv.org/abs/2603.10051v1
- Date: Mon, 09 Mar 2026 15:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.594129
- Title: Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification
- Title(参考訳): フローセマンティックスはどこに存在するのか? 暗号化トラフィック分類のためのプロトコルネイティブタブラリ事前学習パラダイム
- Authors: Sizhe Huang, Shujie Yang,
- Abstract要約: 自己監督型マスクドモデリングは、生のバイトをマスキングして再構築することで、暗号化されたトラフィック分類を約束する。
最近の研究によると、これらの手法はコストのかかる事前訓練にもかかわらずラベル付きデータへの依存を減らすことができない。
トラフィックをシーケンスバイトにフラットにすることで、プロトコル定義のセマンティクスを破壊します。
- 参考スコア(独自算出の注目度): 5.044786941116112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised masked modeling shows promise for encrypted traffic classification by masking and reconstructing raw bytes. Yet recent work reveals these methods fail to reduce reliance on labeled data despite costly pretraining: under frozen encoder evaluation, accuracy drops from greater than 0.9 to less than 0.47. We argue the root cause is inductive bias mismatch: flattening traffic into byte sequences destroys protocol-defined semantics. We identify three specific issues: 1) field unpredictability, random fields like ip.id are unlearnable yet treated as reconstruction targets; 2) embedding confusion, semantically distinct fields collapse into a unified embedding space; 3) metadata loss, capture-time metadata essential for temporal analysis is discarded. To address this, we propose a protocol-native paradigm that treats protocol-defined field semantics as architectural priors, reformulating the task to align with the data's intrinsic tabular modality rather than incrementally adapting sequence-based architectures. Instantiating this paradigm, we introduce FlowSem-MAE, a tabular masked autoencoder built on Flow Semantic Units (FSUs). It features predictability-guided filtering that focuses on learnable FSUs, FSU-specific embeddings to preserve field boundaries, and dual-axis attention to capture intra-packet and temporal patterns. FlowSem-MAE significantly outperforms state-of-the-art across datasets. With only half labeled data, it outperforms most existing methods trained on full data.
- Abstract(参考訳): 自己監督型マスクドモデリングは、生のバイトをマスキングして再構築することで、暗号化されたトラフィック分類を約束する。
凍結エンコーダの評価では、精度は0.9以上から0.47以下に低下する。
我々は、根本原因は帰納的バイアスミスマッチであり、トラフィックをバイトシーケンスに平らにすることで、プロトコル定義のセマンティクスが破壊されると主張している。
私たちは3つの特定の問題を特定します。
1) フィールド予測不能,ip.idのようなランダムフィールドは,未学習でありながら,再構築対象として扱われる。
2) 埋め込み混乱,意味的に異なる分野が統合された埋め込み空間に崩壊する。
3) メタデータの損失、時間的分析に不可欠なキャプチャ・タイムのメタデータは破棄される。
これを解決するために,プロトコル定義のフィールドセマンティクスをアーキテクチャの前提として扱うプロトコルネイティブパラダイムを提案する。
このパラダイムを実証し,Flow Semantic Units (FSUs) 上に構築された表形式のマスク付きオートエンコーダであるFlowSem-MAEを紹介する。
学習可能なFSU、フィールド境界を保存するためのFSU固有の埋め込み、パッケージ内および時間パターンをキャプチャするための2軸の注意に焦点を当てた予測可能性誘導フィルタリングが特徴である。
FlowSem-MAEはデータセット間の最先端を著しく上回る。
ラベル付きデータの半分しかなく、フルデータでトレーニングされた既存のメソッドよりも優れています。
関連論文リスト
- Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Rethinking Irregular Time Series Forecasting: A Simple yet Effective Baseline [12.66709671516384]
本稿では,汎用的で効率的な予測フレームワークであるAPNを紹介する。
APNの中核には、新しい Time-Aware Patch Aggregation (ATAPA) モジュールがある。
パッチ表現をタイムアウェアな重み付けで計算し、すべての生の観察を集約する。
このアプローチは、人工的なデータポイントの導入を回避し、設計による完全な情報カバレッジを確保することによって、データの忠実性を維持する。
論文 参考訳(メタデータ) (2025-05-16T13:42:00Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。