論文の概要: The Sweet Danger of Sugar: Debunking Representation Learning for Encrypted Traffic Classification
- arxiv url: http://arxiv.org/abs/2507.16438v1
- Date: Tue, 22 Jul 2025 10:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.074204
- Title: The Sweet Danger of Sugar: Debunking Representation Learning for Encrypted Traffic Classification
- Title(参考訳): シュガーの甘味障害:暗号化トラフィック分類のための表現学習の分散化
- Authors: Yuqi Zhao, Giovanni Dettori, Matteo Boffa, Luca Vassio, Marco Mellia,
- Abstract要約: 本稿では、表現学習モデルを利用して交通表現を作成する提案を批判的に再評価する。
Pcap-Encoderは,プロトコルヘッダから特徴を抽出する,LMに基づく表現学習モデルである。
この結果から,データセット作成とモデルトレーニングの欠陥が明らかとなり,より優れた,より意識的なテスト設計が求められた。
- 参考スコア(独自算出の注目度): 3.064166155269814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently we have witnessed the explosion of proposals that, inspired by Language Models like BERT, exploit Representation Learning models to create traffic representations. All of them promise astonishing performance in encrypted traffic classification (up to 98% accuracy). In this paper, with a networking expert mindset, we critically reassess their performance. Through extensive analysis, we demonstrate that the reported successes are heavily influenced by data preparation problems, which allow these models to find easy shortcuts - spurious correlation between features and labels - during fine-tuning that unrealistically boost their performance. When such shortcuts are not present - as in real scenarios - these models perform poorly. We also introduce Pcap-Encoder, an LM-based representation learning model that we specifically design to extract features from protocol headers. Pcap-Encoder appears to be the only model that provides an instrumental representation for traffic classification. Yet, its complexity questions its applicability in practical settings. Our findings reveal flaws in dataset preparation and model training, calling for a better and more conscious test design. We propose a correct evaluation methodology and stress the need for rigorous benchmarking.
- Abstract(参考訳): 最近、BERTのような言語モデルにインスパイアされた提案が急増し、Representation Learningモデルを利用してトラフィック表現を作成しました。
いずれも、暗号化されたトラフィック分類における驚くべきパフォーマンス(最大98%の精度)を約束している。
本稿では,ネットワーク専門家の考え方を用いて,その性能を批判的に再評価する。
広範な分析を通じて、報告された成功はデータ準備の問題の影響を強く受けており、これらのモデルでは、非現実的にパフォーマンスを向上する微調整中に、簡単にショートカット(特徴とラベルの急激な相関)を見つけることができる。
このようなショートカットが存在しない場合(実際のシナリオのように)、これらのモデルはパフォーマンスが悪くなります。
Pcap-Encoderは、プロトコルヘッダーから特徴を抽出するために特別に設計したLMベースの表現学習モデルである。
Pcap-Encoderは、トラフィック分類のためのインストゥルメンタル表現を提供する唯一のモデルである。
しかし、その複雑さは実践的な環境での適用性に疑問を呈している。
この結果から,データセット作成とモデルトレーニングの欠陥が明らかとなり,より優れた,より意識的なテスト設計が求められた。
本稿では,厳密なベンチマークの必要性を強調し,適切な評価手法を提案する。
関連論文リスト
- Interpretable Anomaly Detection in Encrypted Traffic Using SHAP with Machine Learning Models [0.0]
本研究の目的は,暗号化されたネットワークトラフィックにおける異常検出のための解釈可能な機械学習ベースのフレームワークを開発することである。
モデルはトレーニングされ、3つのベンチマークで暗号化されたトラフィックデータセットで評価される。
SHAPビジュアライゼーションは、異常予測に寄与する最も影響力のあるトラフィック特徴を明らかにした。
論文 参考訳(メタデータ) (2025-05-22T05:50:39Z) - Shortcut Learning Susceptibility in Vision Classifiers [3.004632712148892]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。
この現象は、視覚、自然言語処理、音声認識など、さまざまな機械学習アプリケーションで広く利用されている。
クラスラベルと位置相関するデータセットに意図的にショートカットを導入することで,これらのアーキテクチャを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-13T10:25:52Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Localized Shortcut Removal [4.511561231517167]
保持されたテストデータのハイパフォーマンスは、モデルを一般化したり、意味のあるものを学ぶことを必ずしも示さない。
これはしばしば、機械学習のショートカットの存在が原因である。
我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。
論文 参考訳(メタデータ) (2022-11-24T13:05:33Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。