Fugu-MT 論文翻訳(概要): Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models

論文の概要: Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2503.17682v1
Date: Sat, 22 Mar 2025 07:40:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.767373
Title: Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models
Title（参考訳）: 安全RLHF-V:マルチモーダル大言語モデルにおける人間のフィードバックからの安全強化学習
Authors: Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang,
Abstract要約: 汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
参考スコア（独自算出の注目度）: 34.66687625996389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) are critical for developing general-purpose AI assistants, yet they face growing safety risks. How can we ensure that MLLMs are safely aligned to prevent undesired behaviors such as discrimination, misinformation, or violations of ethical standards? In a further step, we need to explore how to fine-tune MLLMs to enhance reasoning performance while ensuring they satisfy safety constraints. Fundamentally, this can be formulated as a min-max optimization problem. In this study, we propose Safe RLHF-V, the first multimodal safety alignment framework that jointly optimizes helpfulness and safety using separate multimodal reward and cost models within a Lagrangian-based constrained optimization framework. Given that there is a lack of preference datasets that separate helpfulness and safety in multimodal scenarios, we introduce BeaverTails-V, the first open-source dataset with dual preference annotations for helpfulness and safety, along with multi-level safety labels (minor, moderate, severe). Additionally, we design a Multi-level Guardrail System to proactively defend against unsafe queries and adversarial attacks. By applying the Beaver-Guard-V moderation for 5 rounds of filtering and re-generation on the precursor model, the overall safety of the upstream model is significantly improved by an average of 40.9%. Experimental results demonstrate that fine-tuning different MLLMs with Safe RLHF can effectively enhance model helpfulness while ensuring improved safety. Specifically, Safe RLHF-V improves model safety by 34.2% and helpfulness by 34.3%. All of datasets, models, and code can be found at https://github.com/SafeRLHF-V to support the safety development of MLLMs and reduce potential societal risks.
Abstract（参考訳）: 汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。さらなるステップとして、MLLMを微調整して推論性能を向上し、安全性の制約を満たす方法を検討する必要がある。基本的には、これは min-max 最適化問題として定式化できる。本研究では,ラグランジアンベースの制約付き最適化フレームワークにおいて,異なるマルチモーダル報酬モデルとコストモデルを用いて,有用性と安全性を共同で最適化する,最初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。マルチモーダルシナリオにおいて、利便性と安全性を分離する選好データセットが欠如していることを踏まえ、多レベル安全ラベル(マイナー、中等、重大)とともに、2つの選好アノテーションを備えた最初のオープンソースデータセットであるBeaverTails-Vを紹介します。さらに、安全でないクエリや敵攻撃に対して積極的に防御するマルチレベルガードレールシステムを設計する。前駆体モデルに5ラウンドのフィルタリングと再生にBeaver-Guard-Vモデレーションを適用することにより、上流モデルの全体的な安全性は平均40.9%向上した。実験結果から, 安全RLHFを用いた各種MLLMの微調整により, モデルの有用性が向上し, 安全性の向上が期待できることがわかった。具体的には、安全RLHF-Vはモデルの安全性を34.2%改善し、利便性を34.3%向上させる。すべてのデータセット、モデル、コードはhttps://github.com/SafeRLHF-Vで見つけることができ、MLLMの安全性開発を支援し、潜在的な社会的リスクを低減することができる。

関連論文リスト

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
Towards Harmless Multimodal Assistants with Blind Preference Optimization [49.044737689613164]
MLLM(Multimodal Large Language Models)は、マルチモーダル理解、推論、相互作用において印象的な能力を示す。 MLLMと人間の嗜好の整合における選好最適化の有効性から,MLLMの安全関連選好データが必要である。我々は、無害なマルチモーダルアシスタントに対してMMSafe-PO選好データセットを構築し、マルチモーダル命令、会話形式、人間のフィードバックからのランク付けされたペア応答を特徴付ける。
論文参考訳（メタデータ） (2025-03-18T12:02:38Z)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。微調整プロセスを通して安全性を維持することは、依然として大きな課題である。トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T08:40:30Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文参考訳（メタデータ） (2025-01-24T06:17:22Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。 Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。 textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-04-01T18:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。