論文の概要: Temporal Attack Pattern Detection in Multi-Agent AI Workflows: An Open Framework for Training Trace-Based Security Models
- arxiv url: http://arxiv.org/abs/2601.00848v1
- Date: Mon, 29 Dec 2025 09:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.783568
- Title: Temporal Attack Pattern Detection in Multi-Agent AI Workflows: An Open Framework for Training Trace-Based Security Models
- Title(参考訳): マルチエージェントAIワークフローにおける時間的攻撃パターン検出:トレースベースのセキュリティモデルをトレーニングするためのオープンフレームワーク
- Authors: Ron F. Del Rosario,
- Abstract要約: マルチエージェントAIにおける時間的攻撃パターンを検出するために,言語モデルを微調整するためのオープンドキュメンテーション手法を提案する。
18の公開サイバーセキュリティソースと35,026の合成OpenTelemetryトレースから80,851のデータセットをキュレートする。
カスタムベンチマークの精度は42.86%から74.29%に向上し、統計的に有意な31.4ポイントの上昇となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an openly documented methodology for fine-tuning language models to detect temporal attack patterns in multi-agent AI workflows using OpenTelemetry trace analysis. We curate a dataset of 80,851 examples from 18 public cybersecurity sources and 35,026 synthetic OpenTelemetry traces. We apply iterative QLoRA fine-tuning on resource-constrained ARM64 hardware (NVIDIA DGX Spark) through three training iterations with strategic augmentation. Our custom benchmark accuracy improves from 42.86% to 74.29%, a statistically significant 31.4-point gain. Targeted examples addressing specific knowledge gaps outperform indiscriminate scaling. Key contributions include: (1) synthetic trace generation methodology for multi-agent coordination attacks and regulatory violations, (2) empirical evidence that training data composition fundamentally determines behavior, and (3) complete open release of datasets, training scripts, and evaluation benchmarks on HuggingFace. While practical deployment requires human oversight due to false positive rates, this work establishes the first reproducible framework enabling practitioners to build custom agentic security models adapted to their threat landscapes.
- Abstract(参考訳): 我々は,OpenTelemetryトレース分析を用いて,多エージェントAIワークフローにおける時間的攻撃パターンを検出するための,微調整言語モデルのためのオープンドキュメンテーション手法を提案する。
18の公開サイバーセキュリティソースと35,026の合成OpenTelemetryトレースから80,851のデータセットをキュレートする。
資源制約のあるARM64ハードウェア(NVIDIA DGX Spark)に対して,戦略的拡張を伴う3つのトレーニングイテレーションを通じて,繰り返しQLoRAの微調整を適用する。
カスタムベンチマークの精度は42.86%から74.29%に向上し、統計的に有意な31.4ポイントの上昇となった。
特定の知識ギャップに対処する対象の例は、非差別的なスケーリングよりも優れています。
1)マルチエージェント協調攻撃と規制違反のための総合的トレース生成手法,(2)トレーニングデータ構成が振る舞いを根本的に決定する実証的証拠,(3)データセットの完全なオープンリリース,トレーニングスクリプト,およびHuggingFace上での評価ベンチマーク。
現実的な展開には、偽陽性率による人間の監視が必要であるが、この研究は、実践者が脅威の風景に適応したカスタムエージェントセキュリティモデルを構築することができる最初の再現可能なフレームワークを確立する。
関連論文リスト
- When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - Towards Compositional Generalization in LLMs for Smart Contract Security: A Case Study on Reentrancy Vulnerabilities [35.39583123277091]
本稿では,原子タスクの分解と融合に基づくポストトレーニングアルゴリズムを提案する。
再帰的脆弱性検出タスクを4つの線形独立原子タスクに分解する。
合成データセットのトレーニングにより、3つのコンパイラ検証データセットを生成する。
次に、Slitherツールを使用して、制御フローグラフとデータフローグラフから構造情報を抽出する。
論文 参考訳(メタデータ) (2026-01-11T13:52:07Z) - Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
AVIATORはAIによる最初の脆弱性注入ワークフローである。
高忠実で多様な大規模な脆弱性データセット生成のために、現実的でカテゴリ固有の脆弱性を自動的に注入する。
セマンティック分析、LoRAベースのファインチューニングとRetrieval-Augmented Generationで強化されたインジェクション合成、静的解析とLLMベースの識別器によるインジェクション後の検証を組み合わせる。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Free Record-Level Privacy Risk Evaluation Through Artifact-Based Methods [6.902279764206365]
メンバーシップ推論攻撃(MIA)は機械学習モデルにおけるプライバシリスクを評価するために広く利用されている。
最先端の手法では、ターゲットモデルと同じアーキテクチャで数百のシャドウモデルをトレーニングする必要があります。
そこで本研究では,トレーニングプロセス中に自然に入手可能なアーティファクトを解析することにより,メンバシップ推論攻撃に最も脆弱なトレーニングサンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T18:04:41Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。