Fugu-MT 論文翻訳(概要): Safety Alignment for Vision Language Models

論文の概要: Safety Alignment for Vision Language Models

arxiv url: http://arxiv.org/abs/2405.13581v1
Date: Wed, 22 May 2024 12:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:14:28.044256
Title: Safety Alignment for Vision Language Models
Title（参考訳）: 視覚言語モデルのための安全アライメント
Authors: Zhendong Liu, Yuanbi Nie, Yingshui Tan, Xiangyu Yue, Qiushi Cui, Chongjun Wang, Xiaoyong Zhu, Bo Zheng,
Abstract要約: 安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
参考スコア（独自算出の注目度）: 21.441662865727448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benefiting from the powerful capabilities of Large Language Models (LLMs), pre-trained visual encoder models connected to an LLMs can realize Vision Language Models (VLMs). However, existing research shows that the visual modality of VLMs is vulnerable, with attackers easily bypassing LLMs' safety alignment through visual modality features to launch attacks. To address this issue, we enhance the existing VLMs' visual modality safety alignment by adding safety modules, including a safety projector, safety tokens, and a safety head, through a two-stage training process, effectively improving the model's defense against risky images. For example, building upon the LLaVA-v1.5 model, we achieve a safety score of 8.26, surpassing the GPT-4V on the Red Teaming Visual Language Models (RTVLM) benchmark. Our method boasts ease of use, high flexibility, and strong controllability, and it enhances safety while having minimal impact on the model's general performance. Moreover, our alignment strategy also uncovers some possible risky content within commonly used open-source multimodal datasets. Our code will be open sourced after the anonymous review.
Abstract（参考訳）: LLM(Large Language Models)の強力な能力から、LLMに接続された事前訓練されたビジュアルエンコーダモデルにより、ビジョン言語モデル(VLM)を実現することができる。しかしながら、既存の研究では、VLMの視覚的モダリティが脆弱であることが示されており、攻撃者はLLMの安全アライメントを視覚的モダリティ機能を通して容易に回避して攻撃を開始することができる。この問題に対処するために,2段階のトレーニングプロセスを通じて安全プロジェクタ,安全トークン,安全ヘッドなどの安全モジュールを追加し,リスク画像に対するモデルの防御性を効果的に向上することにより,既存のVLMの視覚的モダリティ安全アライメントを強化する。例えば、LLaVA-v1.5モデルに基づいて安全スコア8.26を達成し、Red Teaming Visual Language Models (RTVLM)ベンチマークでGPT-4Vを上回った。提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。さらに、我々のアライメント戦略は、一般的に使用されているオープンソースのマルチモーダルデータセットの中で、潜在的に危険なコンテンツを明らかにする。私たちのコードは匿名レビューの後にオープンソース化されます。

関連論文リスト

HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文参考訳（メタデータ） (2025-05-22T13:16:53Z)
Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文参考訳（メタデータ） (2025-05-22T03:00:39Z)
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文参考訳（メタデータ） (2025-03-22T07:40:20Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [21.441662865727448]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文参考訳（メタデータ） (2024-11-18T13:01:57Z)
Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文参考訳（メタデータ） (2024-11-07T16:21:18Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models [26.148022772521493]
LlavaGuardはVLMベースの視覚保護装置のスイートで、大規模データとモデルの時代における信頼性の高いガードレールの必要性に対処する。我々は、カスタマイズ可能な安全分類、データ前処理、拡張、トレーニング設定を記述する新しいオープンフレームワークを確立する。我々は,LlavaGuardの大規模データセットアノテーションとテキスト・ツー・イメージ・モデルのモデレーションという,2つの実世界のアプリケーションでの性能を実演する。
論文参考訳（メタデータ） (2024-06-07T17:44:32Z)
AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。 LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。 AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文参考訳（メタデータ） (2024-03-14T12:51:07Z)
Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文参考訳（メタデータ） (2024-02-03T16:43:42Z)
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文参考訳（メタデータ） (2023-11-27T18:59:42Z)
FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts [14.948652267916149]
大規模視覚言語モデル(VLM)に対するジェイルブレイクアルゴリズムであるFigStepを提案する。 FigStepはテキストに有害な指示を直接送る代わりに、タイポグラフィーによって有害なコンテンツを画像に変換する。 FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができる。
論文参考訳（メタデータ） (2023-11-09T18:59:11Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。