論文の概要: Taming Data Challenges in ML-based Security Tasks: Lessons from Integrating Generative AI
- arxiv url: http://arxiv.org/abs/2507.06092v1
- Date: Tue, 08 Jul 2025 15:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.267915
- Title: Taming Data Challenges in ML-based Security Tasks: Lessons from Integrating Generative AI
- Title(参考訳): MLベースのセキュリティタスクでデータ課題に取り組む - 生成AIの統合から学んだこと
- Authors: Shravya Kanchi, Neal Mangaokar, Aravind Cheruvu, Sifat Muhammad Abdullah, Shirin Nilizadeh, Atul Prakash, Bimal Viswanath,
- Abstract要約: 我々は、機械学習に基づく教師付き分類器の性能に悪影響を及ぼすデータ課題が、あまり注目されていないことを論じる。
本稿では、ジェネレーティブAI(GenAI)を用いて生成した合成データを用いて、一般化を改善するためのトレーニング強化を提案する。
GenAI技術は、厳格なデータ制約のある設定でも、セキュリティ分類器の性能を大幅に改善し、最大32.6%の改善を実現している。
- 参考スコア(独自算出の注目度): 7.045804733459205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning-based supervised classifiers are widely used for security tasks, and their improvement has been largely focused on algorithmic advancements. We argue that data challenges that negatively impact the performance of these classifiers have received limited attention. We address the following research question: Can developments in Generative AI (GenAI) address these data challenges and improve classifier performance? We propose augmenting training datasets with synthetic data generated using GenAI techniques to improve classifier generalization. We evaluate this approach across 7 diverse security tasks using 6 state-of-the-art GenAI methods and introduce a novel GenAI scheme called Nimai that enables highly controlled data synthesis. We find that GenAI techniques can significantly improve the performance of security classifiers, achieving improvements of up to 32.6% even in severely data-constrained settings (only ~180 training samples). Furthermore, we demonstrate that GenAI can facilitate rapid adaptation to concept drift post-deployment, requiring minimal labeling in the adjustment process. Despite successes, our study finds that some GenAI schemes struggle to initialize (train and produce data) on certain security tasks. We also identify characteristics of specific tasks, such as noisy labels, overlapping class distributions, and sparse feature vectors, which hinder performance boost using GenAI. We believe that our study will drive the development of future GenAI tools designed for security tasks.
- Abstract(参考訳): 機械学習に基づく教師付き分類器は、セキュリティタスクに広く使われており、その改善は主にアルゴリズムの進歩に焦点を当てている。
これらの分類器の性能に悪影響を及ぼすデータ課題は、あまり注目されていない。
ジェネレーティブAI(GenAI)の開発は、これらのデータ課題に対処し、分類器のパフォーマンスを向上させることができるか?
分類器の一般化を改善するために,GenAI技術を用いて生成した合成データを用いた学習データセットの拡張を提案する。
我々は6つの最先端のGenAI手法を用いて7つのセキュリティタスクにまたがってこのアプローチを評価し、高度に制御されたデータ合成を可能にするNimaiと呼ばれる新しいGenAIスキームを導入する。
GenAI技術はセキュリティ分類器の性能を大幅に改善し、データ制約の厳しい設定でも最大32.6%の改善を実現している(トレーニングサンプルは180程度)。
さらに、GenAIは、デプロイ後のコンセプトドリフトへの迅速な適応を容易にし、調整プロセスにおいて最小限のラベリングを必要とすることを実証する。
成功にもかかわらず、いくつかのGenAIスキームは、特定のセキュリティタスクの初期化(トレーニングとデータ生成)に苦労している。
また、ノイズラベル、重複クラス分布、スパース特徴ベクトルなどの特定のタスクの特徴も同定し、GenAIによるパフォーマンス向上を阻害する。
我々は,セキュリティタスク用に設計された今後のGenAIツールの開発を促進すると信じている。
関連論文リスト
- Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - AI-Augmented Ethical Hacking: A Practical Examination of Manual Exploitation and Privilege Escalation in Linux Environments [2.3020018305241337]
本研究は,Linux ベースの浸透試験環境における手動操作および特権エスカレーションタスクにおける生成AI(GenAI)の適用について検討する。
以上の結果から,GenAIは攻撃ベクトルの特定や,特権エスカレーション時の機密データに対する複雑な出力解析など,プロセスの合理化が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T15:55:15Z) - Generative AI Enabled Matching for 6G Multiple Access [51.00960374545361]
我々は6G多重アクセスをサポートするGenAI対応マッチング生成フレームワークを提案する。
我々のフレームワークは、与えられた条件と事前定義された報酬に基づいて、より効果的なマッチング戦略を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-29T13:01:26Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - On the Limitations and Prospects of Machine Unlearning for Generative AI [7.795648142175443]
Generative AI(GenAI)は、潜伏変数やその他のデータモダリティから現実的で多様なデータサンプルを合成することを目的としている。
GenAIは自然言語、画像、オーディオ、グラフなど、さまざまな領域で顕著な成果を上げている。
しかし、データプライバシ、セキュリティ、倫理に課題やリスクも生じている。
論文 参考訳(メタデータ) (2024-08-01T08:35:40Z) - GenLens: A Systematic Evaluation of Visual GenAI Model Outputs [33.93591473459988]
GenLensは、GenAIモデル出力の体系的評価のために設計されたビジュアル分析インタフェースである。
モデル開発者によるユーザ調査によると、GenLensは、高い満足度で証明されたワークフローを効果的に強化する。
論文 参考訳(メタデータ) (2024-02-06T04:41:06Z) - At the Dawn of Generative AI Era: A Tutorial-cum-Survey on New Frontiers
in 6G Wireless Intelligence [11.847999494242387]
ジェネレーティブAI(Generative AI、ジェネレーティブAI)は、入力データの基盤となるデータ分布、パターン、特徴を識別できるジェネレーティブモデル(GM)である。
これにより、GenAIは、実世界のデータが不足し、不完全で、取得にコストがかかり、モデル化や理解が難しい、無線領域において重要な資産となる。
我々は、セマンティック/THz/ニアフィールド通信、ISAC、超大型アンテナアレイ、デジタルツイン、AI生成コンテンツサービス、モバイルエッジコンピューティングとエッジAI、敵対的ML、信頼に値する6Gネットワーク研究の先駆的な領域におけるGMの役割を概説する。
論文 参考訳(メタデータ) (2024-02-02T06:23:25Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。