Fugu-MT 論文翻訳(概要): Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows

論文の概要: Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows

arxiv url: http://arxiv.org/abs/2407.02856v1
Date: Wed, 3 Jul 2024 07:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 15:25:09.594204
Title: Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows
Title（参考訳）: 初期異常検出:完全対部分流のモデル性能に関する研究
Authors: Adrian Pekar, Richard Jozsa,
Abstract要約: 本研究では,異常検出システムにおける機械学習モデル,特にランダムフォレストの有効性について検討した。実世界のリアルタイムネットワーク環境に典型的な不完全なデータにモデルを適用する際に生じる性能格差について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the efficacy of machine learning models, specifically Random Forest, in anomaly detection systems when trained on complete flow records and tested on partial flow data. We explore the performance disparity that arises when models are applied to incomplete data typical in real-world, real-time network environments. Our findings demonstrate a significant decline in model performance, with precision and recall dropping by up to 30\% under certain conditions when models trained on complete flows are tested against partial flows. Conversely, models trained and tested on consistently complete or partial datasets maintain robustness, highlighting the importance of dataset consistency in training. The study reveals that a minimum of 7 packets in the test set is required for maintaining reliable detection rates. These results underscore the need for tailored training strategies that can effectively adapt to the dynamics of partial data, enhancing the practical applicability of anomaly detection systems in operational settings.
Abstract（参考訳）: 本研究では,機械学習モデル,特にランダムフォレスト(ランダムフォレスト)が,完全フロー記録でトレーニングし,部分フローデータでテストした場合の異常検出システムにおいて有効性について検討した。実世界のリアルタイムネットワーク環境に典型的な不完全なデータにモデルを適用する際に生じる性能格差について検討する。本研究は, 完全流動モデルが部分流動に対して試験された場合, モデル性能が著しく低下し, 精度とリコールが最大で30 %低下することを示した。逆に、一貫した完全あるいは部分的なデータセットでトレーニングおよびテストされたモデルは堅牢性を維持し、トレーニングにおけるデータセット一貫性の重要性を強調している。本研究は,信頼性の高い検出率を維持するためには,テストセット内の最低7個のパケットが必要であることを明らかにした。これらの結果は、部分データのダイナミクスに効果的に適応し、運用環境における異常検出システムの実用性を高めるための調整されたトレーニング戦略の必要性を浮き彫りにしている。

関連論文リスト

Biased Generalization in Diffusion Models [4.602851365305176]
生成モデリングの一般化は、有限データセットから基礎となる分布を学習し、新しいサンプルを生成する能力として定義される。実際には、テスト損失の最小限でトレーニングが停止されることがしばしばあり、一般化の運用上の指標として捉えられる。トレーニングデータに不規則に近接するサンプルを選好しながら、モデルがテスト損失を減らし続け、トレーニング中のバイアス付き一般化のフェーズを特定することで、この視点に挑戦する。
論文参考訳（メタデータ） (2026-03-03T19:25:33Z)
Towards a more realistic evaluation of machine learning models for bearing fault diagnosis [0.28873930745906956]
本稿では,振動を用いた軸受故障診断におけるデータ漏洩問題とそのモデル評価への影響について検討する。本研究では, 軸受データ分割に着目したリークフリー評価手法を提案し, トレーニングやテストに使用する物理部品の重複を防止した。 CWRU、パダーボーン大学(PU)、オタワ大学(UORED-VAF)の3つの広く採用されているデータセットに対する方法論の評価を行った。
論文参考訳（メタデータ） (2025-09-26T12:35:02Z)
Learning from Random Subspace Exploration: Generalized Test-Time Augmentation with Self-supervised Distillation [8.511846002129522]
GTTA(Generalized Test-Time Augmentation)は、訓練されたモデルの性能を向上させるための非常に効果的な手法である。低視認性水中ビデオにおけるサーモンのセグメンテーションと検出という,より具体的な現実世界のタスクにおいて,その効果を実証する。
論文参考訳（メタデータ） (2025-07-02T04:30:04Z)
AICO: Feature Significance Tests for Supervised Learning [0.5142666700569699]
本稿では,任意の回帰アルゴリズムや分類アルゴリズムにおける入力特徴の影響を評価するために,モデルおよび分布に依存しない重要度テストを開発する。我々は、この中央値に対して一様に強力でランダムな符号テストを構築し、特徴量と信頼区間を評価するための正確なp値を得る。合成タスクの実験は、その統計的および計算上の利点を検証し、実世界のデータへの適用は、その実用性を示している。
論文参考訳（メタデータ） (2025-06-29T21:15:40Z)
Modeling of AUV Dynamics with Limited Resources: Efficient Online Learning Using Uncertainty [9.176056742068814]
本研究では,記憶容量の制約によるオンライン学習におけるリハーサルのためのデータポイントの選択における不確実性の利用について検討する。本稿では, 特定の閾値以下で不確実なサンプルを除外するThreshold法, 保存点間の不確実性を最大化するために設計されたGreedy法, 以前の2つのアプローチを組み合わせたThreshold-Greedyの3つの新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-06T18:48:55Z)
Complementary Learning for Real-World Model Failure Detection [15.779651238128562]
そこでは、異なる訓練パラダイムから学習特性を用いてモデルエラーを検出する。我々は,制御的かつ自己管理的な方法で,点群における意味的および予測的動作ラベルを学習することにより,我々のアプローチを実証する。大規模定性解析を行い、ライダー点雲にラベル付き異常を持つ最初のデータセットであるLidarCODAを提示する。
論文参考訳（メタデータ） (2024-07-19T13:36:35Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks [15.569758991934934]
脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
論文参考訳（メタデータ） (2024-05-02T13:26:18Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Monitoring Machine Learning Models: Online Detection of Relevant Deviations [0.0]
機械学習モデルは、データ分散やその他の要因の変化によって、時間の経過とともに劣化する可能性がある。本稿では,関連する変化を検出するための逐次モニタリング手法を提案する。本研究は, 微ゆらぎと有意義な劣化を区別する実用的な解決法である。
論文参考訳（メタデータ） (2023-09-26T18:46:37Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)
Robustness and Generalization Performance of Deep Learning Models on Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文参考訳（メタデータ） (2023-06-13T12:43:59Z)
Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文参考訳（メタデータ） (2023-03-28T21:02:35Z)
DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文参考訳（メタデータ） (2023-01-30T15:54:00Z)
Data Valuation Without Training of a Model [8.89493507314525]
本稿では、ニューラルネットワークの一般化における個々のインスタンスの影響を定量化するために、複雑性ギャップスコアと呼ばれるトレーニング不要なデータ評価スコアを提案する。提案したスコアは、インスタンスの不規則性を定量化し、トレーニング中に各データインスタンスがネットワークパラメータの総移動にどの程度貢献するかを測定する。
論文参考訳（メタデータ） (2023-01-03T02:19:20Z)
Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-12-20T19:29:37Z)
A monitoring framework for deployed machine learning models with supply chain examples [2.904613270228912]
機械学習モデルを監視するためのフレームワークについて述べ,(2)ビッグデータサプライチェーンアプリケーションの実装について述べる。本実装では,3つの実データ集合上でのモデル特徴,予測,および性能のドリフトについて検討する。
論文参考訳（メタデータ） (2022-11-11T14:31:38Z)
Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文参考訳（メタデータ） (2022-04-06T06:39:40Z)
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文参考訳（メタデータ） (2021-06-30T06:21:42Z)
Training Deep Normalizing Flow Models in Highly Incomplete Data Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文参考訳（メタデータ） (2021-04-03T20:57:57Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。