論文の概要: Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.15576v1
- Date: Wed, 21 May 2025 14:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.69965
- Title: Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける構成推論のための視覚摂動と適応型ハード負のコントラスト学習
- Authors: Xin Huang, Ruibin Li, Tong Jia, Wei Zheng, Ya Wang,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。
既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
- 参考スコア(独自算出の注目度): 9.682523487279976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are essential for multimodal tasks, especially compositional reasoning (CR) tasks, which require distinguishing fine-grained semantic differences between visual and textual embeddings. However, existing methods primarily fine-tune the model by generating text-based hard negative samples, neglecting the importance of image-based negative samples, which results in insufficient training of the visual encoder and ultimately impacts the overall performance of the model. Moreover, negative samples are typically treated uniformly, without considering their difficulty levels, and the alignment of positive samples is insufficient, which leads to challenges in aligning difficult sample pairs. To address these issues, we propose Adaptive Hard Negative Perturbation Learning (AHNPL). AHNPL translates text-based hard negatives into the visual domain to generate semantically disturbed image-based negatives for training the model, thereby enhancing its overall performance. AHNPL also introduces a contrastive learning approach using a multimodal hard negative loss to improve the model's discrimination of hard negatives within each modality and a dynamic margin loss that adjusts the contrastive margin according to sample difficulty to enhance the distinction of challenging sample pairs. Experiments on three public datasets demonstrate that our method effectively boosts VLMs' performance on complex CR tasks. The source code is available at https://github.com/nynu-BDAI/AHNPL.
- Abstract(参考訳): 視覚言語モデル(VLM)は多モーダルなタスク、特に合成推論(CR)タスクに必須であり、視覚とテキストの埋め込みの微妙な意味的差異を区別する必要がある。
しかし、既存の手法は、主にテキストベースのハードネガティブサンプルを生成し、画像ベースのネガティブサンプルの重要性を無視し、視覚エンコーダのトレーニングが不十分になり、最終的にモデル全体の性能に影響を及ぼすことによって、モデルを微調整する。
さらに、負のサンプルは、その難易度を考慮せずに一様に扱われ、正のサンプルのアライメントが不十分であるため、難しいサンプルペアの整列が困難になる。
これらの問題に対処するため,適応型ハード負摂動学習(AHNPL)を提案する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
AHNPLはまた、各モード内のハードネガティブの識別を改善するためにマルチモーダル・ハードネガティブ・ロスを用いた対照的な学習手法を導入し、サンプルの難易度に応じて対照的なマージンを調整するダイナミック・マージン・ロスを導入し、挑戦的なサンプルペアの区別を強化する。
3つの公開データセットの実験により、複雑なCRタスクにおけるVLMの性能を効果的に向上することを示した。
ソースコードはhttps://github.com/nynu-BDAI/AHNPLで入手できる。
関連論文リスト
- Enhancing Fine-Grained Vision-Language Pretraining with Negative Augmented Samples [12.407654428921049]
既存のビジョンランゲージ事前学習法は、様々な視覚言語タスクにおいて顕著に改善されている。
しかし、多くのニュアンスな視覚言語アプリケーションにとって重要な、きめ細かい理解能力は依然として限られている。
我々は,NASを革新的に組み込んだ視覚言語事前学習モデルであるNegative Augmented Samples(NAS)を導入する。
論文 参考訳(メタデータ) (2024-12-13T10:39:31Z) - Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。