論文の概要: OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection
- arxiv url: http://arxiv.org/abs/2603.22499v1
- Date: Mon, 23 Mar 2026 19:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.158199
- Title: OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection
- Title(参考訳): OrgForge-IT: LLMに基づくインサイダー脅威検出のための検証可能な総合ベンチマーク
- Authors: Jeffrey Flynt,
- Abstract要約: 本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic insider threat benchmarks face a consistency problem: corpora generated without an external factual constraint cannot rule out cross-artifact contradictions. The CERT dataset -- the field's canonical benchmark -- is also static, lacks cross-surface correlation scenarios, and predates the LLM era. We present OrgForge-IT, a verifiable synthetic benchmark in which a deterministic simulation engine maintains ground truth and language models generate only surface prose, making cross-artifact consistency an architectural guarantee. The corpus spans 51 simulated days, 2,904 telemetry records at a 96.4% noise rate, and four detection scenarios designed to defeat single-surface and single-day triage strategies across three threat classes and eight injectable behaviors. A ten-model leaderboard reveals several findings: (1) triage and verdict accuracy dissociate - eight models achieve identical triage F1=0.80 yet split between verdict F1=1.0 and 0.80; (2) baseline false-positive rate is a necessary companion to verdict F1, with models at identical verdict accuracy differing by two orders of magnitude on triage noise; (3) victim attribution in the vishing scenario separates tiers - Tier A models exonerate the compromised account holder while Tier B models detect the attack but misclassify the victim; (4) rigid multi-signal thresholds structurally exclude single-surface negligent insiders, demonstrating the necessity of parallel, threat-class-specific triage pipelines; and (5) agentic software-engineering training acts as a force multiplier for multi-day temporal correlation, but only when paired with frontier-level parameter scale. Finally, prompt sensitivity analysis reveals that unstructured prompts induce vocabulary hallucination, motivating a two-track scoring framework separating prompt adherence from reasoning capability. OrgForge-IT is open source under the MIT license.
- Abstract(参考訳): 合成インサイダー脅威ベンチマークは、一貫性の問題に直面している: 外部の事実制約なしで生成されたコーパスは、クロスアーティファクトの矛盾を排除できない。
CERTデータセット(フィールドの標準ベンチマーク)も静的で、表面的相関シナリオが欠如しており、LLM時代より前である。
提案するOrgForge-ITは,決定論的シミュレーションエンジンが基礎的真理を保ち,言語モデルが表面の散文のみを生成する検証可能な総合ベンチマークである。
コーパスは51日間の模擬、96.4%のノイズレートで2,904回のテレメトリ記録、および3つの脅威クラスと8つの注入可能な行動で1面と1日のトリアージ戦略を破るために設計された4つの検出シナリオにまたがる。
1) トリアージと判定精度 解離 - 8 モデルで同一のトリアージ F1=0.80 が得られるが、判定 F1=1.0 と 0.80 の分割、(2) ベースラインの偽陽性率は、判定 F1 の判定に必要である。
最後に、プロンプト感度分析により、非構造的プロンプトが語彙幻覚を誘発し、2トラックのスコアリングフレームワークが推論能力からプロンプト付着を分離することを明らかにする。
OrgForge-ITはMITライセンス下でオープンソースである。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection [0.12891210250935145]
自動マルウェア生成のためのLLMのウェポン化は、従来の検出パラダイムに現実的な脅威をもたらす。
本稿では,エスココール実行とエンフディープ学習に基づく脆弱性分類を組み合わせた,新しいハイブリッド分析フレームワークを提案する。
2,500 LLM合成サンプルからなるベンチマークでは、従来のマルウェアでは98.7%、AIによる脅威では97.5%の精度が達成されている。
論文 参考訳(メタデータ) (2026-03-10T00:25:41Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Unsupervised Anomaly Detection in Multi-Agent Trajectory Prediction via Transformer-Based Models [45.08545174556591]
マルチエージェントトランスを用いた教師なし異常検出フレームワークを提案する。
検出安定性と物理的アライメントの両方を評価するための二重評価手法が提案されている。
本フレームワークでは,時間対衝突および統計ベースラインに欠落した388個の特異な異常を同定する。
論文 参考訳(メタデータ) (2026-01-28T08:33:10Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。