論文の概要: LLM-VA: Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment
- arxiv url: http://arxiv.org/abs/2601.19487v1
- Date: Tue, 27 Jan 2026 11:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.295663
- Title: LLM-VA: Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment
- Title(参考訳): LLM-VA: ベクトルアライメントによるジェイルブレイク・オーバーレファレルトレードオフの解消
- Authors: Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Wenhai Wang,
- Abstract要約: 安全性に配慮したLSMは、ジェイルブレイク(有害な入力を回答する)とオーバーリフレクション(良質なクエリをデクラインする)の2つの障害モードに悩まされている。
既存のベクトルステアリングメソッドは、回答ベクトルの規模を調整しますが、これは基本的なトレードオフを生み出します。
LLM-VAは, クローズドフォームの重み付けによって$v_a$と$v_b$に整合し, モデルが安全性評価に因果的に答える意思を与える。
- 参考スコア(独自算出の注目度): 43.69008759971087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned LLMs suffer from two failure modes: jailbreak (answering harmful inputs) and over-refusal (declining benign queries). Existing vector steering methods adjust the magnitude of answer vectors, but this creates a fundamental trade-off -- reducing jailbreak increases over-refusal and vice versa. We identify the root cause: LLMs encode the decision to answer (answer vector $v_a$) and the judgment of input safety (benign vector $v_b$) as nearly orthogonal directions, treating them as independent processes. We propose LLM-VA, which aligns $v_a$ with $v_b$ through closed-form weight updates, making the model's willingness to answer causally dependent on its safety assessment -- without fine-tuning or architectural changes. Our method identifies vectors at each layer using SVMs, selects safety-relevant layers, and iteratively aligns vectors via minimum-norm weight modifications. Experiments on 12 LLMs demonstrate that LLM-VA achieves 11.45% higher F1 than the best baseline while preserving 95.92% utility, and automatically adapts to each model's safety bias without manual tuning. Code and models are available at https://hotbento.github.io/LLM-VA-Web/.
- Abstract(参考訳): 安全性に配慮したLSMは、Jailbreak(有害な入力の回答)とover-refusal(良質なクエリの削除)の2つの障害モードに悩まされる。
既存のベクトルステアリングメソッドは、回答ベクトルの規模を調整しますが、これは基本的なトレードオフを生み出します。
LLMs encode the decision to answer (answer vector $v_a$) and the judgment of input safety (benign vector $v_b$) as almost orthogonal direction, treated them as independent process。
LLM-VAは、クローズドフォームの重み付けによって$v_a$と$v_b$に整列する。
提案手法は,SVMを用いて各層におけるベクトルを同定し,安全関連層を選択し,最小ノルム量修正によりベクトルを反復的にアライメントする。
12個のLCMの実験では、LCM-VAは95.92%の実用性を維持しながら最高のベースラインよりも11.45%高いF1を達成し、手動チューニングなしで各モデルの安全バイアスに自動的に適応することを示した。
コードとモデルはhttps://hotbento.github.io/LLM-VA-Web/.orgで公開されている。
関連論文リスト
- TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization [52.01940078632388]
テンプレートと接尾辞を交互に最適化する新しいジェイルブレイク手法であるTASOを紹介する。
我々は,24個のLLMのベンチマークデータセットにおけるTASOの有効性を評価する。
論文 参考訳(メタデータ) (2025-11-23T18:49:27Z) - Alleviating the Fear of Losing Alignment in LLM Fine-tuning [26.219350136041328]
大規模言語モデル(LLM)は倫理的でない、あるいは有害な質問に答え、アプリケーションに対する懸念を提起する。
本稿では、微調整中に失われたアライメントの回復に焦点を当てる。
本手法は, タスク性能を犠牲にすることなく, 有害な質問に対する回答の割合を33.25%から1.74%に削減できる。
論文 参考訳(メタデータ) (2025-04-13T23:47:16Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。