Fugu-MT 論文翻訳(概要): Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models

論文の概要: Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models

arxiv url: http://arxiv.org/abs/2507.16257v1
Date: Tue, 22 Jul 2025 06:13:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 21:34:13.987035
Title: Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models
Title（参考訳）: 品質テキストとロバスト視覚:視覚言語モデルの視覚ロバスト性向上における言語の役割
Authors: Futa Waseda, Saku Sugawara, Isao Echizen,
Abstract要約: 頑健な微調整のための既存の敵の訓練手法は、視覚的堅牢性を高める上での言語の役割を概ね見落としている。本研究では,QT-AFT(Quality Text-guided Adversarial Fine-Tuning)を提案する。 QT-AFTは、16のゼロショットデータセットで評価された、最先端のゼロショット対向ロバスト性とクリーンな精度を達成する。
参考スコア（独自算出の注目度）: 17.259725776748482
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Defending pre-trained vision-language models (VLMs), such as CLIP, against adversarial attacks is crucial, as these models are widely used in diverse zero-shot tasks, including image classification. However, existing adversarial training (AT) methods for robust fine-tuning largely overlook the role of language in enhancing visual robustness. Specifically, (1) supervised AT methods rely on short texts (e.g., class labels) to generate adversarial perturbations, leading to overfitting to object classes in the training data, and (2) unsupervised AT avoids this overfitting but remains suboptimal against practical text-guided adversarial attacks due to its lack of semantic guidance. To address these limitations, we propose Quality Text-guided Adversarial Fine-Tuning (QT-AFT), which leverages high-quality captions during training to guide adversarial examples away from diverse semantics present in images. This enables the visual encoder to robustly recognize a broader range of image features even under adversarial noise, thereby enhancing robustness across diverse downstream tasks. QT-AFT overcomes the key weaknesses of prior methods -- overfitting in supervised AT and lack of semantic awareness in unsupervised AT -- achieving state-of-the-art zero-shot adversarial robustness and clean accuracy, evaluated across 16 zero-shot datasets. Furthermore, our comprehensive study uncovers several key insights into the role of language in enhancing vision robustness; for example, describing object properties in addition to object names further enhances zero-shot robustness. Our findings point to an urgent direction for future work -- centering high-quality linguistic supervision in robust visual representation learning.
Abstract（参考訳）: CLIPのような事前訓練された視覚言語モデル(VLM)の敵攻撃に対する防御は重要であり、画像分類を含む多様なゼロショットタスクで広く使用されている。しかし、頑健な微調整のための既存の対戦訓練(AT)手法は、視覚的堅牢性を高める上での言語の役割を概ね見落としている。具体的には,(1) 教師なしのAT手法は,(1) 教師なしのAT手法は短文(例えば,クラスラベル)に頼って敵の摂動を発生させ,トレーニングデータのオブジェクトクラスに過度に適合させ,(2) 教師なしのAT手法は,この過度な適合を避けるが,意味指導の欠如により,実践的なテキスト誘導の敵攻撃に対して最適ではない。これらの制約に対処するために、訓練中に高品質なキャプションを活用する品質テキスト誘導逆調整(QT-AFT)を提案する。これにより、視覚エンコーダは、敵対的ノイズの下でも幅広い画像特徴を確実に認識し、様々な下流タスク間の堅牢性を高めることができる。 QT-AFTは、教師付きATの過度な適合と教師なしATのセマンティックな認識の欠如、最先端のゼロショット対逆ロバスト性と16のゼロショットデータセットで評価されたクリーンな精度の達成といった、以前の手法の重大な弱点を克服している。さらに、包括的研究により、視覚的ロバスト性を高める上での言語の役割に関するいくつかの重要な知見が明らかになった。本研究は,視覚表現学習における高品質な言語指導を中心に,今後の研究の急進的な方向性を示唆するものである。

関連論文リスト

Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文参考訳（メタデータ） (2025-02-03T17:59:45Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。 LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文参考訳（メタデータ） (2023-01-30T17:34:43Z)
Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文参考訳（メタデータ） (2022-12-14T04:08:56Z)
Disentangled Text Representation Learning with Information-Theoretic Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文参考訳（メタデータ） (2022-10-26T18:14:39Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。