論文の概要: AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.01735v1
- Date: Wed, 02 Apr 2025 13:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:23.399380
- Title: AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization
- Title(参考訳): AdPO: 優先最適化による大規模視覚言語モデルの逆ロバスト性向上
- Authors: Chaohu Liu, Tianyi Gui, Yu Liu, Linli Xu,
- Abstract要約: 本稿では,優先最適化に基づくLVLMの新たな敵防衛戦略であるAdPOを提案する。
提案手法は, クリーンな入力に対して正規出力を生成するためのモデルの嗜好を高めることを目的として, 優先最適化問題として, 対人訓練を再構成するものである。
より小さなLVLMのトレーニングは,ベースライン法に匹敵する効率を維持しつつ,競争性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 11.381262184752234
- License:
- Abstract: Large Vision-Language Models (LVLMs), such as GPT-4o and LLaVA, have recently witnessed remarkable advancements and are increasingly being deployed in real-world applications. However, inheriting the sensitivity of visual neural networks, LVLMs remain vulnerable to adversarial attacks, which can result in erroneous or malicious outputs. While existing efforts utilize adversarial fine-tuning to enhance robustness, they often suffer from performance degradation on clean inputs. In this paper, we proposes AdPO, a novel adversarial defense strategy for LVLMs based on preference optimization. For the first time, we reframe adversarial training as a preference optimization problem, aiming to enhance the model's preference for generating normal outputs on clean inputs while rejecting the potential misleading outputs for adversarial examples. Notably, AdPO achieves this by solely modifying the image encoder, e.g., CLIP ViT, resulting in superior clean and adversarial performance in a variety of downsream tasks. Considering that training involves large language models (LLMs), the computational cost increases significantly. We validate that training on smaller LVLMs and subsequently transferring to larger models can achieve competitive performance while maintaining efficiency comparable to baseline methods. Our comprehensive experiments confirm the effectiveness of the proposed AdPO, which provides a novel perspective for future adversarial defense research.
- Abstract(参考訳): GPT-4oやLLaVAのようなLVLM(Large Vision-Language Models)は近年、目覚ましい進歩を目の当たりにしており、現実のアプリケーションに展開されつつある。
しかし、視覚ニューラルネットワークの感度を継承し、LVLMは敵の攻撃に弱いままであり、誤ったまたは悪意のある出力をもたらす可能性がある。
既存の取り組みでは、敵の微調整を利用して堅牢性を高めるが、クリーンな入力の性能劣化に悩まされることが多い。
本稿では,優先最適化に基づくLVLMの新たな敵防衛戦略であるAdPOを提案する。
提案手法は, 好ましくない入力に対して, 正当な出力を生成するためのモデルの好みを高めるとともに, 敵のサンプルに対する潜在的な誤解を招く出力を拒絶することを目的として, 優先最適化問題として, 逆トレーニングを再構成するものである。
特にAdPOは、イメージエンコーダ(例えばCLIP ViT)を単に修正することで、さまざまなダウンストリームタスクにおいて、クリーンで対向的なパフォーマンスが向上する。
トレーニングには大きな言語モデル(LLM)が関係していることを考えると、計算コストは大幅に増加する。
我々は,LVLMの小型化と大規模モデルへの移行により,ベースライン法に匹敵する効率を保ちながら,競争性能を向上できることを確認した。
本稿では,AdPOの有効性を総合的に検証し,今後の敵防衛研究の新たな視点を提供する。
関連論文リスト
- Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models [14.828324088905772]
非普遍的敵攻撃は、多くの場合、データインスタンス当たりの計算要求が高いため、リアルタイムオンラインアプリケーションでは実用的ではない。
DO-UAPと呼ばれる直接最適化に基づくUAPアプローチを提案し、高い攻撃性能を維持しながら資源消費を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-15T14:29:47Z) - CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs [37.98496239547762]
大きな視覚言語モデルは、オブジェクトやそれらの特性や関係といった詳細を幻覚させる傾向があり、実際のデプロイメントを制限します。
本稿では,LVLMのDPOに基づく最適化のために,CLIP(CLIP-DPO)埋め込みモデルを用いた優先最適化手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T21:56:20Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - A Prompting-based Approach for Adversarial Example Generation and
Robustness Enhancement [18.532308729844598]
我々は,NLPモデルに侵入する新たなプロンプトベースの敵攻撃を提案する。
悪質な目的によってマスク・アンド・フィリングによって敵の例を生成する。
本手法は, 逆方向のサンプルを生成するのではなく, 大規模トレーニングセットに効率的に適用することができる。
論文 参考訳(メタデータ) (2022-03-21T03:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。