論文の概要: Two Birds, One Projection: Harmonizing Safety and Utility in LVLMs via Inference-time Feature Projection
- arxiv url: http://arxiv.org/abs/2603.14825v1
- Date: Mon, 16 Mar 2026 04:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.059092
- Title: Two Birds, One Projection: Harmonizing Safety and Utility in LVLMs via Inference-time Feature Projection
- Title(参考訳): 2羽の鳥と1羽の投射:推論時特徴投影によるLVLMの安全性と実用性の調和
- Authors: Yewon Han, Yumin Seol, EunGyung Kong, Minsoo Jo, Taesup Kim,
- Abstract要約: 安全性と実用性が本質的に敵対的な目的であるかどうかを考察する。
我々は、データセット間で一貫して観察されるモダリティ誘導バイアス方向に焦点を当てる。
2羽の鳥, 1羽の投射, 効率的な投獄時防犯法を提案する。
- 参考スコア(独自算出の注目度): 6.473196638281021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing jailbreak defence frameworks for Large Vision-Language Models often suffer from a safety utility tradeoff, where strengthening safety inadvertently degrades performance on general visual-grounded reasoning tasks. In this work, we investigate whether safety and utility are inherently antagonistic objectives. We focus on a modality induced bias direction consistently observed across datasets, which arises from suboptimal coupling between the Large Language Model backbone and visual encoders. We further demonstrate that this direction undermines performance on both tasks. Leveraging this insight, we propose Two Birds, One Projection, an efficient inference time jailbreak defence that projects cross-modal features onto the null space of the identified bias direction to remove the corresponding components. Requiring only a single forward pass, our method effectively breaks the conventional tradeoff, simultaneously improving both safety and utility across diverse benchmarks.
- Abstract(参考訳): 既存のLarge Vision-Language Modelのジェイルブレイク防御フレームワークは、安全ユーティリティのトレードオフに悩まされることが多い。
本研究では,安全性と実用性が本質的に敵対的な目的であるかどうかを考察する。
我々は,大規模言語モデルのバックボーンと視覚エンコーダの最適部分結合から生じる,データセット間で一貫して観測されるモダリティ誘導バイアス方向に注目した。
さらに、この方向が両方のタスクのパフォーマンスを損なうことを示す。
この知見を生かして、2羽の鳥、1羽のプロジェクションを提案する。これは効率的な推論時ジェイルブレイク防御であり、識別されたバイアス方向のヌル空間にクロスモーダルな特徴を投影し、対応するコンポーネントを除去する。
1つのフォワードパスしか必要とせず、従来のトレードオフを効果的に破り、多様なベンチマークで安全性と実用性の両方を同時に改善する。
関連論文リスト
- Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models [58.17589701432514]
Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
論文 参考訳(メタデータ) (2025-12-08T03:46:03Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - SAFER: Advancing Safety Alignment via Efficient Ex-Ante Reasoning [51.78514648677898]
我々は,eFficient Ex-Ante Reasoningによる安全アライメントの枠組みであるSAFERを提案する。
提案手法は,初期評価,ルール検証,経路校正などを通じて,構造化されたex-Ante推論をインスタンス化する。
複数のオープンソース LLM の実験により,SAFER は有用性と応答効率を保ちながら安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T16:07:38Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。