論文の概要: VISOR++: Universal Visual Inputs based Steering for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.25533v1
- Date: Mon, 29 Sep 2025 21:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.338572
- Title: VISOR++: Universal Visual Inputs based Steering for Large Vision Language Models
- Title(参考訳): VISOR++: 大きな視覚言語モデルのためのユニバーサルビジュアル入力ベースのステアリング
- Authors: Ravikumar Balakrishnan, Mansi Phute,
- Abstract要約: 最適化された視覚入力だけで動作制御を実現するために、出力リダイレクトのためのユニバーサルビジュアル入力ベースのステアリング(VISOR++)を導入する。
本研究では、視覚言語モデル(VLM)のアンサンブルに対して単一のVISOR++画像を生成し、それぞれのステアリングベクトルをエミュレートできることを実証する。
また、オープンアクセスとクローズアクセスの両方を含む未確認モデルの方向性の挙動シフトを達成する上で、VISOR++イメージの約束を示す。
- 参考スコア(独自算出の注目度): 2.8676122062166187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision Language Models (VLMs) are deployed across safety-critical applications, understanding and controlling their behavioral patterns has become increasingly important. Existing behavioral control methods face significant limitations: system prompting approaches could easily be overridden by user instructions, while applying activation-based steering vectors requires invasive runtime access to model internals, precluding deployment with API-based services and closed-source models. Finding steering methods that transfer across multiple VLMs is still an open area of research. To this end, we introduce universal visual input based steering for output redirection (VISOR++), to achieve behavioral control through optimized visual inputs alone. We demonstrate that a single VISOR++ image can be generated for an ensemble of VLMs to emulate each of their steering vectors. By crafting universal visual inputs that induce target activation patterns, VISOR++ eliminates the need for runtime model access while remaining deployment-agnostic. This means that when an underlying model supports multimodal capability, model behaviors can be steered by inserting an image input replacing runtime steering vector based interventions. We first demonstrate the effectiveness of the VISOR++ images on open-access models such as LLaVA-1.5-7B and IDEFICS2-8B along three alignment directions: refusal, sycophancy and survival instinct. Both the model-specific steering images and the jointly optimized images achieve performance parity closely following that of steering vectors for both positive and negative steering tasks. We also show the promise of VISOR++ images in achieving directional behavioral shifts for unseen models including both open-access and closed-access ones. Furthermore, VISOR++ images are able to preserve 99.9% performance on 14,000 unrelated MMLU evaluation tasks.
- Abstract(参考訳): 視覚言語モデル(VLM)が安全クリティカルなアプリケーションにデプロイされるにつれ、その行動パターンの理解と制御がますます重要になっている。
システムプロンプトアプローチをユーザ命令で簡単にオーバーライドできる一方で、アクティベーションベースのステアリングベクタを適用するには、モデル内部への侵入ランタイムアクセスが必要で、APIベースのサービスやクローズドソースモデルによるデプロイを先取りする。
複数のVLMを横断するステアリング方法を見つけることは、まだ研究の領域である。
この目的のために、最適化された視覚入力のみでの動作制御を実現するために、出力リダイレクトのためのユニバーサルビジュアル入力ベースのステアリング(VISOR++)を導入する。
我々は、VLMのアンサンブルに対して単一のVISOR++画像を生成し、それぞれのステアリングベクトルをエミュレートできることを実証した。
ターゲットのアクティベーションパターンを誘導するユニバーサルなビジュアルインプットを作成することで、VISOR++は、デプロイに依存しないままのランタイムモデルアクセスを不要にする。
つまり、基盤となるモデルがマルチモーダル機能をサポートする場合、実行時のベクタベースの介入に代えてイメージ入力を挿入することで、モデル動作をステアリングすることができる。
まず,LLaVA-1.5-7B や IDEFICS2-8B などのオープンアクセスモデルに対する VISOR++ 画像の有効性について検討した。
モデル固有のステアリング画像と共同最適化画像の両方が、正と負の両方のステアリングタスクに対するステアリングベクトルに忠実に追従した性能のパリティを実現する。
また、オープンアクセスとクローズアクセスの両方を含む未確認モデルの方向性の挙動シフトを達成する上で、VISOR++イメージの約束を示す。
さらに、14,000の無関係なMMLU評価タスクにおいて、VISOR++イメージは99.9%のパフォーマンスを維持することができる。
関連論文リスト
- VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models [1.4262180230002854]
VISOR(Visual Input-based Steering for Output Redirection)は、最適化された視覚入力のみで高度な動作制御を実現する新しい手法である。
我々は,LLaVA-1.5-7B上のVISORを,拒絶,梅毒,生存本能の3つの重要なアライメントタスクで検証した。
VISORは、14,000の無関係なMMLUタスクに対して99.9%のパフォーマンスを維持しながら、堅牢な双方向制御を提供する。
論文 参考訳(メタデータ) (2025-08-11T23:25:16Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer [12.398902878803034]
本稿では,運転動作の分析を目的としたGAF-ViTモデルを提案する。
提案したViTモデルは、Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-21T04:24:30Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。