論文の概要: Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.12662v1
- Date: Wed, 16 Oct 2024 15:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:55.578589
- Title: Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるクロスモーダル安全メカニズムの伝達
- Authors: Shicheng Xu, Liang Pang, Yunchang Zhu, Huawei Shen, Xueqi Cheng,
- Abstract要約: LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。
LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
- 参考スコア(独自算出の注目度): 72.75669790569629
- License:
- Abstract: Vision-language alignment in Large Vision-Language Models (LVLMs) successfully enables LLMs to understand visual input. However, we find that existing vision-language alignment methods fail to transfer the existing safety mechanism for text in LLMs to vision, which leads to vulnerabilities in toxic image. To explore the cause of this problem, we give the insightful explanation of where and how the safety mechanism of LVLMs operates and conduct comparative analysis between text and vision. We find that the hidden states at the specific transformer layers play a crucial role in the successful activation of safety mechanism, while the vision-language alignment at hidden states level in current methods is insufficient. This results in a semantic shift for input images compared to text in hidden states, therefore misleads the safety mechanism. To address this, we propose a novel Text-Guided vision-language Alignment method (TGA) for LVLMs. TGA retrieves the texts related to input vision and uses them to guide the projection of vision into the hidden states space in LLMs. Experiments show that TGA not only successfully transfers the safety mechanism for text in basic LLMs to vision in vision-language alignment for LVLMs without any safety fine-tuning on the visual modality but also maintains the general performance on various vision tasks (Safe and Good).
- Abstract(参考訳): LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
しかし、既存の視覚言語アライメント手法では、LLMのテキストの既存の安全性メカニズムを視覚に転送できないため、有害な画像の脆弱性が生じる。
この問題の原因を探るため,LVLMの安全性メカニズムがテキストと視覚でどのように機能し,比較分析を行うのかを考察した。
特定の変圧器層における隠れ状態が安全機構の活性化に重要な役割を担っているのに対し,現在の方法では隠れ状態レベルでの視覚言語アライメントは不十分である。
これにより、隠れ状態のテキストと比較して入力画像のセマンティックシフトが発生するため、安全性のメカニズムを誤解させる。
そこで本研究では,LVLMのためのテキストガイド型視覚言語アライメント法(TGA)を提案する。
TGAは入力視覚に関連するテキストを検索し、LLMの隠れ状態空間に視覚の投影を誘導する。
実験の結果、TGAは基本的なLLMにおけるテキストの安全性メカニズムを視覚言語アライメントの視覚に伝達するだけでなく、様々な視覚タスク(セーフとグッド)の一般的なパフォーマンスも維持できることがわかった。
関連論文リスト
- Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models [26.83278034227966]
VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:59:31Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation [3.837186701755568]
本稿では,画像ナビゲーションのためのゼロショット異常検出におけるLarge Language Modelsの可能性について検討する。
提案フレームワークは,カメラキャプチャフレーム内の任意の障害を含む異常を識別し,異常を強調した簡潔な音声記述を生成する。
論文 参考訳(メタデータ) (2024-03-19T03:55:39Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。