Fugu-MT 論文翻訳(概要): Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

論文の概要: Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

arxiv url: http://arxiv.org/abs/2402.17510v2
Date: Wed, 31 Jul 2024 21:02:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 14:24:21.608394
Title: Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning
Title（参考訳）: 視覚言語表現学習におけるショートカットの実証と削減
Authors: Maurits Bleeker, Mariya Hendriksen, Andrew Yates, Maarten de Rijke,
Abstract要約: 本稿では,視覚言語のための合成ショートカットについて紹介する。我々は,これらの合成ショートカットを含むデータを用いて,スクラッチや微調整で訓練された対照的なVLMが,主にショートカットを表す特徴を学習していることを示す。
参考スコア（独自算出の注目度）: 57.4893889206655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) mainly rely on contrastive training to learn general-purpose representations of images and captions. We focus on the situation when one image is associated with several captions, each caption containing both information shared among all captions and unique information per caption about the scene depicted in the image. In such cases, it is unclear whether contrastive losses are sufficient for learning task-optimal representations that contain all the information provided by the captions or whether the contrastive learning setup encourages the learning of a simple shortcut that minimizes contrastive loss. We introduce synthetic shortcuts for vision-language: a training and evaluation framework where we inject synthetic shortcuts into image-text data. We show that contrastive VLMs trained from scratch or fine-tuned with data containing these synthetic shortcuts mainly learn features that represent the shortcut. Hence, contrastive losses are not sufficient to learn task-optimal representations, i.e., representations that contain all task-relevant information shared between the image and associated captions. We examine two methods to reduce shortcut learning in our training and evaluation framework: (i) latent target decoding and (ii) implicit feature modification. We show empirically that both methods improve performance on the evaluation task, but only partly reduce shortcut learning when training and evaluating with our shortcut learning framework. Hence, we show the difficulty and challenge of our shortcut learning framework for contrastive vision-language representation learning.
Abstract（参考訳）: 視覚言語モデル(VLM)は主に画像やキャプションの汎用表現を学ぶための対照的な訓練に依存している。一つの画像が複数のキャプションに関連付けられている場合、各キャプションには、すべてのキャプション間で共有される情報と、画像に表示されるシーンに関するユニークな情報の両方が含まれている。このようなケースでは、キャプションが提供する全ての情報を含むタスク最適表現を学習するのにコントラスト的損失が十分であるかどうか、あるいはコントラスト的損失を最小限に抑える単純なショートカットの学習を奨励しているかどうかが不明である。画像テキストデータに合成ショートカットを注入する学習・評価フレームワークである視覚言語のための合成ショートカットを紹介する。我々は,これらの合成ショートカットを含むデータを用いて,スクラッチや微調整で訓練された対照的なVLMが,主にショートカットを表す特徴を学習していることを示す。したがって、画像と関連するキャプション間で共有されるすべてのタスク関連情報を含む、タスク最適表現を学ぶのに、対照的な損失は十分ではない。トレーニングおよび評価フレームワークにおけるショートカット学習を減らすための2つの方法を検討する。 (i)潜在目標復号・復号 (ii)暗黙的な特徴修正。両手法が評価課題の性能を向上させることを実証的に示すが,ショートカット学習のトレーニングや,ショートカット学習フレームワークによる評価では,部分的にしかショートカット学習を減らさない。したがって、コントラッシブな視覚言語表現学習のためのショートカット学習フレームワークの難しさと課題を示す。

関連論文リスト

CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [17.05291662808873]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文参考訳（メタデータ） (2025-08-04T11:57:10Z)
Learning Visual Composition through Improved Semantic Guidance [19.24813992815684]
ラベル付けされたデータを大幅に改善することで、標準的なコントラスト学習手法の性能を大幅に改善できることを示す。本結果は,DOCCIから得られた比較的新しいキャプションベンチマークで紹介する。拡張されたデータでトレーニングされた標準的なCLIPモデルは、画像検索タスクにおいて印象的なパフォーマンスを示すかもしれない。
論文参考訳（メタデータ） (2024-12-19T20:58:26Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文参考訳（メタデータ） (2021-11-26T16:24:03Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。