論文の概要: Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM
- arxiv url: http://arxiv.org/abs/2507.20994v1
- Date: Mon, 28 Jul 2025 16:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.21633
- Title: Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM
- Title(参考訳): クロスモーダルブリッジとしてのセキュリティテンソル:LVLMにおけるテキストアライズされた安全性を視覚に拡張する
- Authors: Shen Li, Liuyi Yao, Wujia Niu, Lan Zhang, Yaliang Li,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
- 参考スコア(独自算出の注目度): 40.83149588857177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large visual-language models (LVLMs) integrate aligned large language models (LLMs) with visual modules to process multimodal inputs. However, the safety mechanisms developed for text-based LLMs do not naturally extend to visual modalities, leaving LVLMs vulnerable to harmful image inputs. To address this cross-modal safety gap, we introduce security tensors - trainable input vectors applied during inference through either the textual or visual modality. These tensors transfer textual safety alignment to visual processing without modifying the model's parameters. They are optimized using a curated dataset containing (i) malicious image-text pairs requiring rejection, (ii) contrastive benign pairs with text structurally similar to malicious queries, with the purpose of being contrastive examples to guide visual reliance, and (iii) general benign samples preserving model functionality. Experimental results demonstrate that both textual and visual security tensors significantly enhance LVLMs' ability to reject diverse harmful visual inputs while maintaining near-identical performance on benign tasks. Further internal analysis towards hidden-layer representations reveals that security tensors successfully activate the language module's textual "safety layers" in visual inputs, thereby effectively extending text-based safety to the visual modality.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
しかし、テキストベースのLLMのために開発された安全メカニズムは、自然に視覚的モダリティにまで拡張せず、LVLMは有害な画像入力に弱いままである。
このクロスモーダルな安全性ギャップに対処するために、テキストまたは視覚的モダリティによって推論中に適用されるトレーニング可能な入力ベクトルであるセキュリティテンソルを導入する。
これらのテンソルは、モデルのパラメータを変更することなく、テキストの安全アライメントを視覚処理に転送する。
それらは、キュレートされたデータセットを含むよう最適化されている
(i)拒絶を必要とする悪意のある画像テキストペア。
(二 悪意のあるクエリと構造的に類似したテキストとの対照的な良性対であって、視覚的依存を導くための対照的な例であること。)
三 モデル機能を保持する一般的な良性サンプル。
実験の結果,テキスト・ビジュアル・セキュリティ・テンソルは多種多様な視覚入力を拒否するLVLMの能力を著しく向上し,良性タスクにおけるほぼ同一性能を維持した。
隠れ層表現に対するさらなる内部分析により、セキュリティテンソルは視覚入力において言語モジュールのテキスト「セーフティレイヤー」を正常に活性化し、テキストベースの安全性を視覚的モダリティに効果的に拡張することが明らかとなった。
関連論文リスト
- Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models [0.0]
既存の評価データセットはテキストのみのプロンプトに傾き、視覚的脆弱性を評価下に置きます。
テキストのみのデータセットをマルチモーダル形式に適応させる,新しいマルチステージパイプラインであるText2VLMを提案する。
Text2VLMは、包括的な安全性評価のためのスケーラブルなツールを提供し、Visual Language Modelsのより堅牢な安全性メカニズムの開発に貢献している。
論文 参考訳(メタデータ) (2025-07-28T10:57:44Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。
攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。
本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文 参考訳(メタデータ) (2024-11-07T16:21:18Z) - Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models [72.75669790569629]
LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。
LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
論文 参考訳(メタデータ) (2024-10-16T15:20:08Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。