論文の概要: Demonstrating and Reducing Shortcuts in Vision-Language Representation
Learning
- arxiv url: http://arxiv.org/abs/2402.17510v1
- Date: Tue, 27 Feb 2024 13:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:18:24.294423
- Title: Demonstrating and Reducing Shortcuts in Vision-Language Representation
Learning
- Title(参考訳): 視覚言語表現学習におけるショートカットの実証と削減
- Authors: Maurits Bleeker, Mariya Hendriksen, Andrew Yates, Maarten de Rijke
- Abstract要約: 本稿では,視覚言語のための合成ショートカットについて紹介する。
我々は,これらの合成ショートカットを含むデータを用いて,スクラッチや微調整で訓練された対照的なVLMが,主にショートカットを表す特徴を学習していることを示す。
- 参考スコア(独自算出の注目度): 62.80302738628635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) mainly rely on contrastive training to learn
general-purpose representations of images and captions. We focus on the
situation when one image is associated with several captions, each caption
containing both information shared among all captions and unique information
per caption about the scene depicted in the image. In such cases, it is unclear
whether contrastive losses are sufficient for learning task-optimal
representations that contain all the information provided by the captions or
whether the contrastive learning setup encourages the learning of a simple
shortcut that minimizes contrastive loss. We introduce synthetic shortcuts for
vision-language: a training and evaluation framework where we inject synthetic
shortcuts into image-text data. We show that contrastive VLMs trained from
scratch or fine-tuned with data containing these synthetic shortcuts mainly
learn features that represent the shortcut. Hence, contrastive losses are not
sufficient to learn task-optimal representations, i.e., representations that
contain all task-relevant information shared between the image and associated
captions. We examine two methods to reduce shortcut learning in our training
and evaluation framework: (i) latent target decoding and (ii) implicit feature
modification. We show empirically that both methods improve performance on the
evaluation task, but only partly reduce shortcut learning when training and
evaluating with our shortcut learning framework. Hence, we show the difficulty
and challenge of our shortcut learning framework for contrastive
vision-language representation learning.
- Abstract(参考訳): 視覚言語モデル(VLM)は主に画像やキャプションの汎用表現を学ぶための対照的な訓練に依存している。
1つの画像が複数のキャプションに関連付けられた状況に注目し,各キャプションに共有された情報と,その画像に描かれたシーンに関するキャプションごとにユニークな情報の両方を含むキャプションについて述べる。
このようなケースでは、キャプションが提供する全ての情報を含むタスク最適表現を学習するのにコントラスト的損失が十分であるかどうか、あるいはコントラスト的損失を最小限に抑える単純なショートカットの学習を奨励しているかどうかが不明である。
画像テキストデータに合成ショートカットを注入する学習・評価フレームワークである視覚言語のための合成ショートカットを紹介する。
これらの合成ショートカットを含むデータをスクラッチまたは微調整したコントラストvlmは、主にショートカットを表す特徴を学習する。
したがって、画像と関連するキャプション間で共有されるすべてのタスク関連情報を含む、タスク最適表現を学ぶのに、対照的な損失は十分ではない。
トレーニングおよび評価フレームワークにおけるショートカット学習を減らす2つの方法を検討する。
(i)潜伏目標復号、及び
(ii)暗黙的な特徴修正。
いずれの手法も評価タスクの性能を向上させるが,ショートカット学習フレームワークを用いてトレーニングや評価を行う際のショートカット学習を部分的に削減する。
したがって、コントラッシブな視覚言語表現学習のためのショートカット学習フレームワークの難しさと課題を示す。
関連論文リスト
- SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。