論文の概要: NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2409.09582v2
- Date: Tue, 24 Sep 2024 05:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-25 11:30:21.141511
- Title: NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training
- Title(参考訳): NEVLP:高能率ビジョンランゲージ事前学習のためのノイズロバストフレームワーク
- Authors: Yiyi Tao, Zhuoyue Wang, Hang Zhang, Lun Wang,
- Abstract要約: 本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。
具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。
ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
- 参考スコア(独自算出の注目度): 6.34265125858783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Vision Language Models (VLMs) on various vision-language tasks heavily relies on pre-training with large scale web-crawled datasets. However, the noisy and incomplete nature of web data makes dataset scale crucial for performance, rendering end-to-end training increasingly prohibitive. In this paper, we propose NEVLP, a noise-robust framework for efficient vision-language pre-training that requires less pre-training data. Specifically, we bridge the modality gap between a frozen image encoder and a large language model with a transformer and introduce two innovative learning strategies: noise-adaptive learning and concept-enhanced learning to mitigate the impact of noise. In noise-adaptive learning, we estimate the noise probability of each image-text pair based on the transformer's memorization effect and employ noise-adaptive regularization on image-text contrastive learning to condition cross-modal alignment. In concept-enhanced learning, we enrich incomplete text by incorporating visual concepts (objects in the image) to provide prior information about existing objects for image-text matching and image-grounded text generation, thereby mitigating text incompletion. Our framework effectively utilizes noisy web data and achieves state-of-the-art performance with less pre-training data across a wide range of vision-language tasks, including image-text retrieval, image captioning, and visual question answering.
- Abstract(参考訳): 様々な視覚言語タスクにおけるビジョン言語モデル(VLM)の成功は、大規模なWebcrawledデータセットによる事前トレーニングに大きく依存している。
しかし、Webデータのノイズと不完全な性質は、データセットのスケールをパフォーマンスに欠かせないものにし、エンドツーエンドのトレーニングはますます禁じられている。
本稿では,より少ない事前学習データを必要とする視覚言語事前学習のためのノイズロバストフレームワークであるNEVLPを提案する。
具体的には、凍結画像エンコーダと大きな言語モデルとのモダリティギャップをトランスフォーマーで埋め、ノイズ適応学習と概念強化学習という2つの革新的な学習戦略を導入し、ノイズの影響を軽減する。
雑音適応学習では、変換器の記憶効果に基づいて各画像テキスト対の雑音確率を推定し、条件交叉アライメントに対する画像テキストのコントラスト学習に雑音適応正規化を用いる。
概念強化学習では、画像テキストマッチングや画像接地テキスト生成のための既存のオブジェクトに関する事前情報を提供するために、視覚的概念(画像内のオブジェクト)を取り入れ、不完全なテキストを豊かにすることにより、テキストの非補完を緩和する。
本フレームワークは,画像テキスト検索,画像キャプション,視覚的質問応答など,多種多様な視覚言語タスクにおいて,ノイズの多いWebデータを効果的に活用し,事前学習の少ない最先端のパフォーマンスを実現する。
関連論文リスト
- Semi-supervised Text-based Person Search [47.14739994781334]
既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。
本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。
本稿では,ノイズの多いデータを扱うための検索モデルの能力を高めるためのノイズロバスト検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-28T07:47:52Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。