論文の概要: CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors
- arxiv url: http://arxiv.org/abs/2508.02997v1
- Date: Tue, 05 Aug 2025 01:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.736799
- Title: CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors
- Title(参考訳): CoCoTen:コンテキスト共起テンソルの潜在空間特徴による大規模言語モデルに対する逆入力の検出
- Authors: Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis,
- Abstract要約: 本稿では,コンテキスト共起行列を用いた検出問題について検討する。
本論文では,コンテキスト共起行列の潜在空間特性を利用した新しい手法を提案する。
評価の結果,ラベル付きプロンプトの0.5%しか使用せず,F1スコアの0.83を達成できた。
- 参考スコア(独自算出の注目度): 3.7478782183628634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of Large Language Models (LLMs) in many applications marks a significant advance in research and practice. However, their complexity and hard-to-understand nature make them vulnerable to attacks, especially jailbreaks designed to produce harmful responses. To counter these threats, developing strong detection methods is essential for the safe and reliable use of LLMs. This paper studies this detection problem using the Contextual Co-occurrence Matrix, a structure recognized for its efficacy in data-scarce environments. We propose a novel method leveraging the latent space characteristics of Contextual Co-occurrence Matrices and Tensors for the effective identification of adversarial and jailbreak prompts. Our evaluations show that this approach achieves a notable F1 score of 0.83 using only 0.5% of labeled prompts, which is a 96.6% improvement over baselines. This result highlights the strength of our learned patterns, especially when labeled data is scarce. Our method is also significantly faster, speedup ranging from 2.3 to 128.4 times compared to the baseline models. To support future research and reproducibility, we have made our implementation publicly available.
- Abstract(参考訳): 多くのアプリケーションでLLM(Large Language Models)が広く使われていることは、研究や実践において大きな進歩を見せている。
しかし、その複雑さと理解が難しい性質は、攻撃、特に有害な反応を生み出すように設計されたジェイルブレイクに対して脆弱である。
これらの脅威に対処するためには、LLMの安全で信頼性の高い使用には、強力な検出方法の開発が不可欠である。
本稿では,データ共有環境におけるコンテキスト共起行列(Contextual Co-occurrence Matrix)を用いた検出問題について検討する。
本稿では,コンテキスト共起行列とテンソルの潜伏空間特性を利用して,敵対的・脱獄的プロンプトを効果的に同定する手法を提案する。
評価の結果,0.5%のラベル付きプロンプトを使用すれば,F1スコアの0.83を達成でき,ベースラインよりも96.6%向上していることがわかった。
この結果は、特にラベル付きデータが不足している場合に、学習パターンの強みを強調します。
また,本手法はベースラインモデルに比べて2.3~128.4倍の高速化を実現している。
今後の研究と再現性を支援するため,我々は実装を一般公開した。
関連論文リスト
- Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection [23.7268575752712]
ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T00:49:02Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。