論文の概要: N-GLARE: An Non-Generative Latent Representation-Efficient LLM Safety Evaluator
- arxiv url: http://arxiv.org/abs/2511.14195v1
- Date: Tue, 18 Nov 2025 07:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.980397
- Title: N-GLARE: An Non-Generative Latent Representation-Efficient LLM Safety Evaluator
- Title(参考訳): N-GLARE:非生成潜在表現効率のLLM安全性評価器
- Authors: Zheyu Lin, Jirui Yang, Hengqi Guo, Yubing Bao, Yao Guan,
- Abstract要約: N-GLAREは、完全なテキスト生成の必要性を回避して、モデルの潜在表現を完全に操作する。
潜在表現のAPT(Angular-Probabilistic Trajectory)を分析することで、隠蔽層ダイナミクスを特徴付ける。
N-GLAREは、トークンコストとランタイムコストの1%未満で、大規模なレッドチームテストの差別的傾向を再現する。
- 参考スコア(独自算出の注目度): 2.741826749835854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the safety robustness of LLMs is critical for their deployment. However, mainstream Red Teaming methods rely on online generation and black-box output analysis. These approaches are not only costly but also suffer from feedback latency, making them unsuitable for agile diagnostics after training a new model. To address this, we propose N-GLARE (A Non-Generative, Latent Representation-Efficient LLM Safety Evaluator). N-GLARE operates entirely on the model's latent representations, bypassing the need for full text generation. It characterizes hidden layer dynamics by analyzing the APT (Angular-Probabilistic Trajectory) of latent representations and introducing the JSS (Jensen-Shannon Separability) metric. Experiments on over 40 models and 20 red teaming strategies demonstrate that the JSS metric exhibits high consistency with the safety rankings derived from Red Teaming. N-GLARE reproduces the discriminative trends of large-scale red-teaming tests at less than 1\% of the token cost and the runtime cost, providing an efficient output-free evaluation proxy for real-time diagnostics.
- Abstract(参考訳): LLMの安全性の堅牢性を評価することは、その展開に不可欠である。
しかし、メインストリームのRed Teamingメソッドは、オンライン生成とブラックボックス出力分析に依存している。
これらのアプローチは費用がかかるだけでなく、フィードバックの遅延にも悩まされるため、新しいモデルをトレーニングした後のアジャイル診断には適さない。
そこで我々は,N-GLARE (Non-Generative, Latent Representation-Efficient LLM Safety Evaluator)を提案する。
N-GLAREは、完全なテキスト生成の必要性を回避し、モデルの潜在表現を完全に操作する。
潜在表現のAPT(Angular-Probabilistic Trajectory)を分析し、JSS(Jensen-Shannon Separability)メトリックを導入することで、隠蔽層のダイナミクスを特徴付ける。
40以上のモデルと20以上のレッドチーム戦略の実験では、JSSメトリクスがRed Teamingから派生した安全性ランキングと高い一貫性を示すことが示されている。
N-GLARE はトークンコストとランタイムコストの 1 % 未満で大規模な赤チームテストの識別傾向を再現し、リアルタイム診断のための効率的な出力不要評価プロキシを提供する。
関連論文リスト
- ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文 参考訳(メタデータ) (2025-10-06T19:20:43Z) - ZeroFalse: Improving Precision in Static Analysis with LLMs [0.1759008116536278]
静的アプリケーションセキュリティテスト(SAST)ツールは、現代のソフトウェア開発に不可欠なツールだが、その採用は過度の偽陽性によって損なわれている。
ZeroFalseは,大規模言語モデル(LLM)と静的解析を統合して,カバレッジを維持しながら偽陽性を減らすフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T20:07:25Z) - GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation [12.921040231832082]
A/I-GLASS: Activation- and Impact-based Global-Local Neural importance aggregate for feed-forward network SparSification。
複数のLarge Language Models (LLM) とベンチマークによる実証的な結果から、GLASSは事前のトレーニング不要な手法よりも大幅に優れていたことが示されている。
論文 参考訳(メタデータ) (2025-08-19T22:50:20Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。
機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。
本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文 参考訳(メタデータ) (2025-06-02T15:17:38Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [92.6187727249868]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。