Fugu-MT 論文翻訳(概要): CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

論文の概要: CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

arxiv url: http://arxiv.org/abs/2409.11365v2
Date: Wed, 9 Oct 2024 06:39:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 20:01:55.226621
Title: CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration
Title（参考訳）: CoCA:立憲校正による多モーダル大言語モデルの安全性向上
Authors: Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong, Lingpeng Kong, Xin Jiang, Zhenguo Li,
Abstract要約: マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
参考スコア（独自算出の注目度）: 90.36429361299807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The deployment of multimodal large language models (MLLMs) has demonstrated remarkable success in engaging in conversations involving visual inputs, thanks to the superior power of large language models (LLMs). Those MLLMs are typically built based on the LLMs, with an image encoder to process images into the token embedding space of the LLMs. However, the integration of visual modality has introduced a unique vulnerability: the MLLM becomes susceptible to malicious visual inputs and prone to generating sensitive or harmful responses, even though the LLM has been trained on textual dataset to align with human value. In this paper, we first raise the question: ``Do the MLLMs possess safety-awareness against malicious image inputs?". We find that after adding a principle that specifies the safety requirement into the input of the MLLM, the model's safety awareness becomes boosted. This phenomenon verifies the existence of MLLM's safety-awareness against image inputs, it is only weakened by the modality gap. We then introduce a simple yet effective technique termed CoCA, which amplifies the safety-awareness of the MLLM by calibrating its output distribution. Our proposed strategy helps the model reclaim its original safety awareness without losing its original capabilities. We verify the effectiveness of our approach on both multimodal safety and understanding benchmarks.
Abstract（参考訳）: マルチモーダルな大言語モデル(MLLM)の展開は、大規模言語モデル(LLM)の優れたパワーのおかげで、視覚的な入力を含む会話に多大な成功を収めた。これらのMLLMは通常、LLMをベースとして構築され、画像エンコーダによってLLMのトークン埋め込み空間に画像を処理する。しかし、視覚的モダリティの統合は独特な脆弱性をもたらしている: MLLMは悪意のある視覚的入力に影響を受けやすくなり、LLMが人間の価値に合わせてテキストデータセットで訓練されているにもかかわらず、機密性や有害な応答を引き起こす傾向にある。本稿では,「MLLMは悪意ある画像入力に対して安全を意識しているか?」という質問を最初に提起する。 MLLMの入力に安全性要件を規定する原則を付加すると,モデルの安全性意識が向上することがわかった。この現象は、画像入力に対するMLLMの安全性認識の存在を検証し、モダリティギャップによってのみ弱められる。次に, MLLMの出力分布を校正することにより, MLLMの安全性を向上する, CoCA と呼ばれる簡易かつ効果的な手法を提案する。提案した戦略は,モデルが元の能力を失うことなく,元の安全性を回復するのに役立つ。マルチモーダル安全性と理解ベンチマークにおけるアプローチの有効性を検証する。

関連論文リスト

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Refusing Safe Prompts for Multi-modal Large Language Models [36.276781604895454]
安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。 4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
論文参考訳（メタデータ） (2024-07-12T07:18:05Z)
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文参考訳（メタデータ） (2024-06-09T05:04:37Z)
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文参考訳（メタデータ） (2024-04-08T07:54:18Z)
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。 ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文参考訳（メタデータ） (2024-03-14T17:03:04Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文参考訳（メタデータ） (2024-02-20T23:08:21Z)
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。 MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文参考訳（メタデータ） (2024-01-05T17:05:42Z)
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-29T12:49:45Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。