論文の概要: RACA: Representation-Aware Coverage Criteria for LLM Safety Testing
- arxiv url: http://arxiv.org/abs/2602.02280v1
- Date: Mon, 02 Feb 2026 16:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.284551
- Title: RACA: Representation-Aware Coverage Criteria for LLM Safety Testing
- Title(参考訳): RACA:LLM安全性テストのための表現対応カバレッジ基準
- Authors: Zeming Wei, Zhixin Zhang, Chengcan Wu, Yihao Zhang, Xiaokun Luan, Meng Sun,
- Abstract要約: 本稿では,AIの安全性テストに特化して設計された,新しいカバレッジ基準であるRACAを紹介する。
RACAの有効性,適用性,一般化を検証するための総合的な実験を行った。
また、テストセットの優先順位付けやアタックプロンプトサンプリングといった実世界のシナリオにおいて、実際の応用を示す。
- 参考スコア(独自算出の注目度): 13.729870450773797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLMs have led to significant breakthroughs in various AI applications. However, their sophisticated capabilities also introduce severe safety concerns, particularly the generation of harmful content through jailbreak attacks. Current safety testing for LLMs often relies on static datasets and lacks systematic criteria to evaluate the quality and adequacy of these tests. While coverage criteria have been effective for smaller neural networks, they are not directly applicable to LLMs due to scalability issues and differing objectives. To address these challenges, this paper introduces RACA, a novel set of coverage criteria specifically designed for LLM safety testing. RACA leverages representation engineering to focus on safety-critical concepts within LLMs, thereby reducing dimensionality and filtering out irrelevant information. The framework operates in three stages: first, it identifies safety-critical representations using a small, expert-curated calibration set of jailbreak prompts. Second, it calculates conceptual activation scores for a given test suite based on these representations. Finally, it computes coverage results using six sub-criteria that assess both individual and compositional safety concepts. We conduct comprehensive experiments to validate RACA's effectiveness, applicability, and generalization, where the results demonstrate that RACA successfully identifies high-quality jailbreak prompts and is superior to traditional neuron-level criteria. We also showcase its practical application in real-world scenarios, such as test set prioritization and attack prompt sampling. Furthermore, our findings confirm RACA's generalization to various scenarios and its robustness across various configurations. Overall, RACA provides a new framework for evaluating the safety of LLMs, contributing a valuable technique to the field of testing for AI.
- Abstract(参考訳): LLMの最近の進歩は、様々なAIアプリケーションに大きなブレークスルーをもたらした。
しかし、その高度な能力は、特にジェイルブレイク攻撃による有害なコンテンツの生成に深刻な安全上の懸念をもたらす。
LLMの現在の安全性テストは静的なデータセットに依存しており、これらのテストの品質と妥当性を評価するための体系的な基準が欠如している。
カバレッジ基準は、より小さなニューラルネットワークに対して有効であるが、スケーラビリティの問題と異なる目的のために、LSMに直接適用できない。
これらの課題に対処するために,本論文では,LLMの安全性試験に特化して設計された新しいカバレッジ基準であるRACAを紹介する。
RACAは表現工学を活用して、LLM内の安全クリティカルな概念に焦点を合わせ、次元を減らし、無関係な情報をフィルタリングする。
フレームワークは3つの段階で動作する。まず、専門家がキュレーションしたジェイルブレイクプロンプトの小さなキャリブレーションセットを使用して、安全クリティカルな表現を識別する。
次に、これらの表現に基づいて、所定のテストスイートに対する概念的アクティベーションスコアを算出する。
最後に、個々の安全概念と構成安全概念の両方を評価する6つのサブ基準を用いて、カバレッジ結果を算出する。
我々は、RACAの有効性、適用性、一般化を検証するための総合的な実験を行い、RACAは高品質のジェイルブレイクプロンプトを同定し、従来のニューロンレベルの基準よりも優れていることを示した。
また、テストセットの優先順位付けやアタックプロンプトサンプリングといった実世界のシナリオにおいて、実際の応用を示す。
さらに,RACAの様々なシナリオへの一般化と,様々な構成における堅牢性を確認した。
全体として、RACAはLLMの安全性を評価するための新しいフレームワークを提供し、AIのテスト分野に貴重な技術を提供しています。
関連論文リスト
- ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。