論文の概要: RACA: Representation-Aware Coverage Criteria for LLM Safety Testing
- arxiv url: http://arxiv.org/abs/2602.02280v1
- Date: Mon, 02 Feb 2026 16:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.284551
- Title: RACA: Representation-Aware Coverage Criteria for LLM Safety Testing
- Title(参考訳): RACA:LLM安全性テストのための表現対応カバレッジ基準
- Authors: Zeming Wei, Zhixin Zhang, Chengcan Wu, Yihao Zhang, Xiaokun Luan, Meng Sun,
- Abstract要約: 本稿では,AIの安全性テストに特化して設計された,新しいカバレッジ基準であるRACAを紹介する。
RACAの有効性,適用性,一般化を検証するための総合的な実験を行った。
また、テストセットの優先順位付けやアタックプロンプトサンプリングといった実世界のシナリオにおいて、実際の応用を示す。
- 参考スコア(独自算出の注目度): 13.729870450773797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLMs have led to significant breakthroughs in various AI applications. However, their sophisticated capabilities also introduce severe safety concerns, particularly the generation of harmful content through jailbreak attacks. Current safety testing for LLMs often relies on static datasets and lacks systematic criteria to evaluate the quality and adequacy of these tests. While coverage criteria have been effective for smaller neural networks, they are not directly applicable to LLMs due to scalability issues and differing objectives. To address these challenges, this paper introduces RACA, a novel set of coverage criteria specifically designed for LLM safety testing. RACA leverages representation engineering to focus on safety-critical concepts within LLMs, thereby reducing dimensionality and filtering out irrelevant information. The framework operates in three stages: first, it identifies safety-critical representations using a small, expert-curated calibration set of jailbreak prompts. Second, it calculates conceptual activation scores for a given test suite based on these representations. Finally, it computes coverage results using six sub-criteria that assess both individual and compositional safety concepts. We conduct comprehensive experiments to validate RACA's effectiveness, applicability, and generalization, where the results demonstrate that RACA successfully identifies high-quality jailbreak prompts and is superior to traditional neuron-level criteria. We also showcase its practical application in real-world scenarios, such as test set prioritization and attack prompt sampling. Furthermore, our findings confirm RACA's generalization to various scenarios and its robustness across various configurations. Overall, RACA provides a new framework for evaluating the safety of LLMs, contributing a valuable technique to the field of testing for AI.
- Abstract(参考訳): LLMの最近の進歩は、様々なAIアプリケーションに大きなブレークスルーをもたらした。
しかし、その高度な能力は、特にジェイルブレイク攻撃による有害なコンテンツの生成に深刻な安全上の懸念をもたらす。
LLMの現在の安全性テストは静的なデータセットに依存しており、これらのテストの品質と妥当性を評価するための体系的な基準が欠如している。
カバレッジ基準は、より小さなニューラルネットワークに対して有効であるが、スケーラビリティの問題と異なる目的のために、LSMに直接適用できない。
これらの課題に対処するために,本論文では,LLMの安全性試験に特化して設計された新しいカバレッジ基準であるRACAを紹介する。
RACAは表現工学を活用して、LLM内の安全クリティカルな概念に焦点を合わせ、次元を減らし、無関係な情報をフィルタリングする。
フレームワークは3つの段階で動作する。まず、専門家がキュレーションしたジェイルブレイクプロンプトの小さなキャリブレーションセットを使用して、安全クリティカルな表現を識別する。
次に、これらの表現に基づいて、所定のテストスイートに対する概念的アクティベーションスコアを算出する。
最後に、個々の安全概念と構成安全概念の両方を評価する6つのサブ基準を用いて、カバレッジ結果を算出する。
我々は、RACAの有効性、適用性、一般化を検証するための総合的な実験を行い、RACAは高品質のジェイルブレイクプロンプトを同定し、従来のニューロンレベルの基準よりも優れていることを示した。
また、テストセットの優先順位付けやアタックプロンプトサンプリングといった実世界のシナリオにおいて、実際の応用を示す。
さらに,RACAの様々なシナリオへの一般化と,様々な構成における堅牢性を確認した。
全体として、RACAはLLMの安全性を評価するための新しいフレームワークを提供し、AIのテスト分野に貴重な技術を提供しています。
関連論文リスト
- Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies [4.435429537888066]
大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。
本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。
ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
論文 参考訳(メタデータ) (2025-10-27T02:59:17Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks [12.893445918647842]
大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。
この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-12T14:42:08Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。