論文の概要: VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.08521v1
- Date: Mon, 11 Aug 2025 23:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.253266
- Title: VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models
- Title(参考訳): VISOR:視覚言語モデルにおける出力リダイレクトのための視覚入力ベースのステアリング
- Authors: Mansi Phute, Ravikumar Balakrishnan,
- Abstract要約: VISOR(Visual Input-based Steering for Output Redirection)は、最適化された視覚入力のみで高度な動作制御を実現する新しい手法である。
我々は,LLaVA-1.5-7B上のVISORを,拒絶,梅毒,生存本能の3つの重要なアライメントタスクで検証した。
VISORは、14,000の無関係なMMLUタスクに対して99.9%のパフォーマンスを維持しながら、堅牢な双方向制御を提供する。
- 参考スコア(独自算出の注目度): 1.4262180230002854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are increasingly being used in a broad range of applications, bringing their security and behavioral control to the forefront. While existing approaches for behavioral control or output redirection, like system prompting in VLMs, are easily detectable and often ineffective, activation-based steering vectors require invasive runtime access to model internals--incompatible with API-based services and closed-source deployments. We introduce VISOR (Visual Input-based Steering for Output Redirection), a novel method that achieves sophisticated behavioral control through optimized visual inputs alone. By crafting universal steering images that induce target activation patterns, VISOR enables practical deployment across all VLM serving modalities while remaining imperceptible compared to explicit textual instructions. We validate VISOR on LLaVA-1.5-7B across three critical alignment tasks: refusal, sycophancy and survival instinct. A single 150KB steering image matches steering vector performance within 1-2% for positive behavioral shifts while dramatically exceeding it for negative steering--achieving up to 25% shifts from baseline compared to steering vectors' modest changes. Unlike system prompting (3-4% shifts), VISOR provides robust bidirectional control while maintaining 99.9% performance on 14,000 unrelated MMLU tasks. Beyond eliminating runtime overhead and model access requirements, VISOR exposes a critical security vulnerability: adversaries can achieve sophisticated behavioral manipulation through visual channels alone, bypassing text-based defenses. Our work fundamentally re-imagines multimodal model control and highlights the urgent need for defenses against visual steering attacks.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、そのセキュリティと行動制御を前面に置いて、幅広いアプリケーションでますます使われています。
VLMのシステムプロンプトのような、行動制御や出力のリダイレクトのための既存のアプローチは、容易に検出可能で、しばしば非効率であるが、アクティベーションベースのステアリングベクタは、APIベースのサービスやクローズドソースデプロイメントと互換性のない、モデル内部への侵入ランタイムアクセスを必要とする。
本稿では,視覚入力のみを最適化することで,高度な動作制御を実現する新しい手法であるVISOR(Visual Input-based Steering for Output Redirection)を紹介する。
ターゲットのアクティベーションパターンを誘導するユニバーサルステアリングイメージを作成することで、VISORは明示的なテキスト命令に比べて知覚不可能なまま、すべてのVLMサービスモダリティを実践的に展開することができる。
我々は,LLaVA-1.5-7B上のVISORを,拒絶,梅毒,生存本能の3つの重要なアライメントタスクで検証した。
単一の150KBのステアリング画像は、正の行動シフトに対して1-2%の範囲でステアリングベクトルのパフォーマンスと一致し、負のステアリングに対して劇的に上回り、ステアリングベクトルのモデスト変化に比べてベースラインから最大25%のシフトを達成した。
システムプロンプト(3-4%シフト)とは異なり、VISORは14,000の無関係なMMLUタスクに対して99.9%のパフォーマンスを維持しながら、堅牢な双方向制御を提供する。
VISORは、実行時のオーバーヘッドとモデルアクセス要求をなくすだけでなく、重要なセキュリティ上の脆弱性を露呈している。
我々の研究は、マルチモーダルモデル制御を根本的に再定義し、視覚的ステアリング攻撃に対する防衛の緊急の必要性を強調している。
関連論文リスト
- CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control [39.17038025776311]
CAREは、ロボットタスク実行のためのVLAモデルをトレーニングするために設計されたフレームワークである。
CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。
結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を示す。
論文 参考訳(メタデータ) (2026-01-30T02:28:32Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection in Multimodal AI Systems [0.0]
本稿では,VLM(Vision-Language Models)におけるスケーリング脆弱性の公開と活用を目的とした,新しい適応型対向フレームワークを提案する。
実験の結果,Chameleonは様々なスケーリング要因に対して84.5%のアタック成功率(ASR)を達成した。
これらの攻撃はエージェントパイプラインを効果的に侵害し、マルチステップタスクにおいて意思決定精度を45%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-04T15:22:28Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models [4.506695482619111]
本研究は、VLM(Vision-Language Models)のための軽量ステアリングモジュールであるSteerVLMを紹介する。
提案手法は,言語モダリティと画像コンテキストを接続するアクティベーションを動的に調整するために,ターゲットと逆動作を符号化するペアプロンプトの潜伏埋め込みから学習する。
我々の操舵モジュールは、元のVLMの大きさの0.14%に相当する学習パラメータを必要とする。
論文 参考訳(メタデータ) (2025-10-30T17:52:39Z) - VISOR++: Universal Visual Inputs based Steering for Large Vision Language Models [2.8676122062166187]
最適化された視覚入力だけで動作制御を実現するために、出力リダイレクトのためのユニバーサルビジュアル入力ベースのステアリング(VISOR++)を導入する。
本研究では、視覚言語モデル(VLM)のアンサンブルに対して単一のVISOR++画像を生成し、それぞれのステアリングベクトルをエミュレートできることを実証する。
また、オープンアクセスとクローズアクセスの両方を含む未確認モデルの方向性の挙動シフトを達成する上で、VISOR++イメージの約束を示す。
論文 参考訳(メタデータ) (2025-09-29T21:43:18Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models [34.60772103760521]
視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文 参考訳(メタデータ) (2025-05-27T04:53:50Z) - Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。
既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。
本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:17:17Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。