論文の概要: Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.07222v2
- Date: Tue, 09 Dec 2025 12:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:23.020574
- Title: Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
- Title(参考訳): 視覚言語モデルの自由ロバスト性に対する関数語に対する注意力の低下
- Authors: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen,
- Abstract要約: 本稿では,機能的単語の影響を軽減するために,機能的単語認識(Function-word De-Attention,FDA)を提案する。
FDAは、アテンションヘッド内の原語と機能ワードのクロスアテンションを計算し、後者を前者から差分減らし、より整列し、堅牢なVLMを作る。
FDAは平均18/13/53%のASR低下を、検索でテストされた3つのモデルで0.2/0.3/0.6%のパフォーマンス低下と、視覚的グラウンドで0.3%のパフォーマンス低下を達成している。
- 参考スコア(独自算出の注目度): 26.753339452021425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.
- Abstract(参考訳): 頑健なVLMにおけるロバスト性と性能のトレードオフに対処するため,機能単語が相互攻撃に対するVLMの脆弱性を生じさせる可能性を確認し,機能単語の影響を軽減するために,機能単語の脱注意(FDA)を提案する。
我々のFDAは、差動増幅器と同様に、注目ヘッド内の原点と機能ワードのクロスアテンションを計算し、後者を前者から差分減らし、より整列し堅牢なVLMを作成する。
総合的な実験には、2つの下流タスクに対する6つの異なる攻撃の下で2つのSOTAベースライン、3つのデータセット、3つのモデルが含まれる。
総じて、FDAは平均18/13/53%のASR低下を、検索時に3つのテストモデルで0.2/0.3/0.6%のパフォーマンス低下を、ビジュアルグラウンドでは90%のASR低下を、パフォーマンスが0.3%向上した。
我々は、FDAのスケーラビリティ、一般化、ゼロショット性能を実験的に実証し、詳細なアブレーション研究と分析を行った。
コードはhttps://github.com/michaeltian108/FDAで公開される。
関連論文リスト
- On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses? [15.433632243968137]
自動脆弱性検出研究のための3部構成のソリューションを提案する。
まず、手動でキュレートされたテストデータセットであるBenchVulを紹介します。
第2に,38,863個の関数からなる高品質なトレーニングデータセットTitanVulを構築した。
第3に,コンテキスト認識型脆弱性事例を合成するリアリスティック脆弱性生成(RVG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:51:46Z) - DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。