論文の概要: Towards Harmless Multimodal Assistants with Blind Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.14189v1
- Date: Tue, 18 Mar 2025 12:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:12.857684
- Title: Towards Harmless Multimodal Assistants with Blind Preference Optimization
- Title(参考訳): ブラインド優先最適化を用いたハームレスマルチモーダルアシスタントの実現に向けて
- Authors: Yongqi Li, Lu Yang, Jian Wang, Runyang You, Wenjie Li, Liqiang Nie,
- Abstract要約: MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。
MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。
我々は、無害なマルチモーダルアシスタントに対してMMSafe-PO選好データセットを構築し、マルチモーダル命令、会話形式、人間のフィードバックからのランク付けされたペア応答を特徴付ける。
- 参考スコア(独自算出の注目度): 49.044737689613164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. Given the extensive applications of MLLMs, the associated safety issues have become increasingly critical. Due to the effectiveness of preference optimization in aligning MLLMs with human preferences, there is an urgent need for safety-related preference data for MLLMs. To address this, we construct the MMSafe-PO preference dataset towards harmless multimodal assistants, featuring multimodal instructions, the conversational format, and ranked paired responses from human feedback. We also identify two insightful observations: modality co-defense and modality cheating, which illustrate that MLLMs possess a certain level of inherent defense while still presenting unique safety challenges. Based on these observations, we propose the Blind Preference Optimization (BPO) approach. Comprehensive experiments on three benchmarks show that BPO effectively enhances the safety capabilities of MLLMs. Notably, BPO significantly improves the safety rate of the base MLLM by 45.0%, outperforming the DPO approach. Additionally, applying BPO to the MMSafe-PO dataset greatly reduces the base MLLM's unsafe rate on other safety benchmarks (14.5% on MM-SafetyBench and 82.9% on HarmEval, demonstrating the effectiveness and robustness of both the dataset and the approach. We release code and data at https://lu-yang666.github.io/MMsafe-PO-Web/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。
MLLMの広範な応用を考えると、関連する安全問題はますます重要になっている。
MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。
そこで本研究では,無害なマルチモーダルアシスタントを対象としたMMSafe-PO選好データセットを構築し,マルチモーダル命令,会話形式,人間からのフィードバックからランク付けされたペア応答を特徴とする。
モダリティ・コ・ディフェンス(英語版)とモダリティ・不正行為(英語版)という2つの洞察に富んだ観察は、MLLMが固有の防御レベルを持ちながら、ユニークな安全課題を提示していることを示している。
これらの観測に基づいて,Blind Preference Optimization (BPO) アプローチを提案する。
3つのベンチマークの総合的な実験により、BPOはMLLMの安全性を効果的に向上することが示された。
特に、BPOはベースMLLMの安全性を45.0%向上させ、DPOアプローチよりも優れる。
さらに、BPOをMMSafe-POデータセットに適用すると、MLLMが他の安全ベンチマークで安全でない(MM-SafetyBenchで14.5%、HarmEvalで82.9%)ため、データセットとアプローチの両方の有効性と堅牢性を示すことができる。
コードとデータはhttps://lu-yang666.github.io/MMsafe-PO-Web/で公開しています。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。
差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。
安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。