論文の概要: ThreatCore: A Benchmark for Explicit and Implicit Threat Detection
- arxiv url: http://arxiv.org/abs/2605.10563v1
- Date: Mon, 11 May 2026 13:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.850904
- Title: ThreatCore: A Benchmark for Explicit and Implicit Threat Detection
- Title(参考訳): ThreatCore: 明示的および暗黙的な脅威検出のためのベンチマーク
- Authors: Davide Bruni, Carlo Bardazzi, Maurizio Tesconi,
- Abstract要約: ThreatCoreは、きめ細かい脅威検出のための公開ベンチマークデータセットである。
それは明白な脅威、暗黙の脅威、および非脅威を区別する。
暗黙的な脅威は、明示的な脅威よりもはるかに検出が困難であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Threat detection in Natural Language Processing lacks consistent definitions and standardized benchmarks, and is often conflated with broader phenomena such as toxicity, hate speech, or offensive language. In this work, we introduce ThreatCore, a public available benchmark dataset for fine-grained threat detection that distinguishes between explicit threats, implicit threats, and non-threats. The dataset is constructed by aggregating multiple publicly available resources and systematically re-annotating them under a unified operational definition of threat, revealing substantial inconsistencies across existing labels. To improve the coverage of underrepresented cases, particularly implicit threats, we further augment the dataset with synthetic examples, which are manually validated using the same annotation protocol adopted for the re-annotation of the public datasets, ensuring consistency across all data sources. We evaluate Perspective API, zero-shot classifiers, and recent language models on ThreatCore, showing that implicit threats remain substantially harder to detect than explicit ones. Our results also indicate that incorporating Semantic Role Labeling as an intermediate representation can improve performance by making the structure of harmful intent more explicit. Overall, ThreatCore provides a more consistent benchmark for studying fine-grained threat detection and highlights the challenges that current models still face in identifying indirect expressions of harmful intent.
- Abstract(参考訳): 自然言語処理における脅威検出は、一貫した定義と標準化されたベンチマークを欠き、しばしば毒性、ヘイトスピーチ、攻撃的な言語といったより広範な現象と混同される。
本研究では、明示的な脅威、暗黙的な脅威、および非脅威を区別する、きめ細かい脅威検出のための公開ベンチマークデータセットであるThreatCoreを紹介する。
データセットは、複数の公開リソースを集約し、脅威の統一された運用定義の下でそれらを体系的に再注釈することで構築される。
特に暗黙的な脅威など、表現されていないケースのカバレッジを改善するために、すべてのデータソース間の一貫性を確保するために、公開データセットの再アノテーションに適用される同じアノテーションプロトコルを使用して、手動で検証される合成例を用いてデータセットをさらに強化する。
我々は、ThreatCore上でのパースペクティブAPI、ゼロショット分類器、および最近の言語モデルを評価し、暗黙の脅威は明示的な脅威よりも検出がかなり難しいことを示す。
また, セマンティック・ロール・ラベルリングを中間表現として組み込むことにより, 有害な意図の構造をより明確化し, 性能を向上できることが示唆された。
全体として、ThreatCoreは、きめ細かい脅威検出を研究するためのより一貫性のあるベンチマークを提供し、有害な意図の間接的な表現を特定する上で、現在のモデルがまだ直面している課題を強調している。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Fine-grained Verbal Attack Detection via a Hierarchical Divide-and-Conquer Framework [21.63587278394972]
本稿では,新たな「階層的攻撃コメント検出」データセットを提案し,言語攻撃認識のためのきめ細かいフレームワークを提案する。
提案したデータセットは階層的な応答構造と時間順を明示的に符号化し,マルチターン議論において複雑な相互作用パターンをキャプチャする。
このデータセットの上に構築されたこのフレームワークは、攻撃検出を階層的なサブタスクに分解する。
論文 参考訳(メタデータ) (2026-01-11T13:17:59Z) - SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - Real-Time Detection of Insider Threats Using Behavioral Analytics and Deep Evidential Clustering [0.0]
本稿では,行動分析と深層的クラスタリングを組み合わせた,インサイダー脅威をリアルタイムに検出するフレームワークを提案する。
本システムは,ユーザの行動を捉え,分析し,文脈に富んだ行動特徴を適用し,潜在的な脅威を分類する。
我々は,CERTやTWOSなどのベンチマークインサイダー脅威データセットについて,平均検出精度94.7%,偽陽性率38%を従来のクラスタリング手法と比較し評価した。
論文 参考訳(メタデータ) (2025-05-21T11:21:33Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。