論文の概要: Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to
Enhance Visio-Linguistic Fine-grained Understanding
- arxiv url: http://arxiv.org/abs/2306.08832v1
- Date: Thu, 15 Jun 2023 03:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:41:20.428691
- Title: Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to
Enhance Visio-Linguistic Fine-grained Understanding
- Title(参考訳): visio-linguistic の細粒度理解を高めるためのモーダル内およびランキングクロスモーダルハードネガティブの対比
- Authors: Le Zhang, Rabiul Awal, Aishwarya Agrawal
- Abstract要約: 現在のビジョンと言語モデル(VLM)は、様々な視覚言語タスクにおいて強いパフォーマンスを示すが、細かな理解に苦慮している。
カリキュラム学習として機能する適応しきい値を持つモード内コントラスト損失とユニークなクロスモーダルランク損失を導入する。
提案手法は,3つのきめ細かいベンチマークにおいて顕著な改善をもたらすとともに,精密な推論における最先端のモッセルであるX-VLMの性能も向上する。
- 参考スコア(独自算出の注目度): 7.947269514522506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision and Language Models (VLMs) demonstrate strong performance
across various vision-language tasks, yet they struggle with fine-grained
understanding. This issue stems from weak image-caption alignment in
pretraining datasets and a simplified contrastive objective that fails to
distinguish nuanced grounding elements such as relations, actions, and
attributes. As a result, the models tend to learn bag-of-words representations.
To mitigate these challenges, we introduce an intra-modal contrastive loss and
a unique cross-modal rank loss with an adaptive threshold that serves as
curriculum learning, utilizing our automatically generated hard negatives to
augment the model's capacity. Our strategy, which does not necessitate
additional annotations or parameters, can be incorporated into any VLM trained
with an image-text contrastive loss. Upon application to CLIP, our method leads
to significant improvements on three fine-grained benchmarks, and it also
enhances the performance of X-VLM, which is the state-of-art moodel on
fine-grained reasoning.
- Abstract(参考訳): 現在のビジョンと言語モデル(VLM)は、様々な視覚言語タスクにおいて強いパフォーマンスを示すが、細かな理解に苦慮している。
この問題は、事前訓練データセットにおけるイメージキャプチャアライメントの弱さと、関係性、アクション、属性などのニュアンスな基底要素を区別できない単純なコントラスト目的に起因している。
結果として、モデルは言葉の袋の表現を学習する傾向がある。
これらの課題を緩和するため,我々は,自動生成したハードマイナス値を利用してモデルのキャパシティを増強し,カリキュラム学習として機能する適応しきい値を持つ,モーダル内コントラストロスとユニークなクロスモーダルランクロスを導入する。
追加のアノテーションやパラメータを必要としない当社の戦略は、イメージテキストのコントラスト損失でトレーニングされたvlmに組み込むことができます。
提案手法は,CLIPに適用すると,3つのきめ細かいベンチマークに対して大幅な改善がもたらされ,また,微細な推論における最先端のモッセルであるX-VLMの性能も向上する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。