論文の概要: Steering to Say No: Configurable Refusal via Activation Steering in Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.07013v1
- Date: Sat, 31 Jan 2026 10:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.351657
- Title: Steering to Say No: Configurable Refusal via Activation Steering in Vision Language Models
- Title(参考訳): Noと言うステアリング:視覚言語モデルにおけるアクティベーションステアリングによる構成可能な拒絶
- Authors: Jiaxi Yang, Shicheng Liu, Yuchen Yang, Dongwon Lee,
- Abstract要約: 我々はtextbfCR-VLM における textbfConfigurable textbfRefusal を開発する。
CR-VLMは,(1)教師の力を借りてリファクトベクターを抽出してリファクト信号を増幅し,(2)スコープ内クエリの受け入れを保ち,過剰リファクトを緩和するゲーティング機構を導入する,(3)視覚表現とリファクト要求を整列するデファクト視覚拡張モジュールを設計する,という3つの統合コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 26.60985401108749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Vision Language Models (VLMs), refusal mechanisms have become a critical component for ensuring responsible and safe model behavior. However, existing refusal strategies are largely \textit{one-size-fits-all} and fail to adapt to diverse user needs and contextual constraints, leading to either under-refusal or over-refusal. In this work, we firstly explore the challenges mentioned above and develop \textbf{C}onfigurable \textbf{R}efusal in \textbf{VLM}s (\textbf{CR-VLM}), a robust and efficient approach for {\em configurable} refusal based on activation steering. CR-VLM consists of three integrated components: (1) extracting a configurable refusal vector via a teacher-forced mechanism to amplify the refusal signal; (2) introducing a gating mechanism that mitigates over-refusal by preserving acceptance for in-scope queries; and (3) designing a counterfactual vision enhancement module that aligns visual representations with refusal requirements. Comprehensive experiments across multiple datasets and various VLMs demonstrate that CR-VLM achieves effective, efficient, and robust configurable refusals, offering a scalable path toward user-adaptive safety alignment in VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩により、拒絶機構は責任と安全なモデル行動を保証する重要な要素となっている。
しかし、既存の拒絶戦略は基本的にはtextit{one-size-fits-all} であり、多様なユーザニーズやコンテキスト制約に適応できないため、過度な拒絶または過剰な拒絶につながる。
本稿では、まず、上記の課題を探求し、活性化ステアリングを基礎として、頑健かつ効率的なアプローチである \textbf{C}onfigurable \textbf{R}efusal in \textbf{VLM}s (\textbf{CR-VLM}) を開発する。
CR-VLM は,(1) 教師強化機構を介して構成可能なリファクトベクトルを抽出してリファクト信号を増幅し,(2) スコープ内クエリの受け入れを保ち,過剰リファクトを緩和するゲーティング機構を導入し,(3) 視覚強調モジュールを設計し,リファクトの表現とリファクトの要求を整列させる。
複数のデータセットと様々なVLMにわたる総合的な実験は、CR-VLMが効率的な、効率的で、堅牢な構成可能なリファリングを実現し、VLMにおけるユーザ適応型安全アライメントへのスケーラブルなパスを提供することを示した。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models [4.506695482619111]
本研究は、VLM(Vision-Language Models)のための軽量ステアリングモジュールであるSteerVLMを紹介する。
提案手法は,言語モダリティと画像コンテキストを接続するアクティベーションを動的に調整するために,ターゲットと逆動作を符号化するペアプロンプトの潜伏埋め込みから学習する。
我々の操舵モジュールは、元のVLMの大きさの0.14%に相当する学習パラメータを必要とする。
論文 参考訳(メタデータ) (2025-10-30T17:52:39Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models [25.261947712485107]
視覚言語モデル(VLM)は、理解と推論のために視覚情報とテキスト情報を統合するという印象的な能力を示しているが、敵の攻撃に対して非常に脆弱である。
モデルロバスト性を高めるために,アクティベーションレベルの介入とポリシレベルの最適化を組み合わせた新しい2段階防衛フレームワークであるtextitSequence-Level Preference Optimization for VLM (textitSPO-VLM)を提案する。
論文 参考訳(メタデータ) (2025-08-30T06:00:53Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。