論文の概要: Image Difference Captioning with Pre-training and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2202.04298v1
- Date: Wed, 9 Feb 2022 06:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:05:32.683368
- Title: Image Difference Captioning with Pre-training and Contrastive Learning
- Title(参考訳): 事前学習とコントラスト学習による画像差分キャプション
- Authors: Linli Yao, Weiying Wang, Qin Jin
- Abstract要約: 画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.59621065755761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Image Difference Captioning (IDC) task aims to describe the visual
differences between two similar images with natural language. The major
challenges of this task lie in two aspects: 1) fine-grained visual differences
that require learning stronger vision and language association and 2) high-cost
of manual annotations that leads to limited supervised data. To address these
challenges, we propose a new modeling framework following the
pre-training-finetuning paradigm. Specifically, we design three self-supervised
tasks and contrastive learning strategies to align visual differences and text
descriptions at a fine-grained level. Moreover, we propose a data expansion
strategy to utilize extra cross-task supervision information, such as data for
fine-grained image classification, to alleviate the limitation of available
supervised IDC data. Extensive experiments on two IDC benchmark datasets,
CLEVR-Change and Birds-to-Words, demonstrate the effectiveness of the proposed
modeling framework. The codes and models will be released at
https://github.com/yaolinli/IDC.
- Abstract(参考訳): 画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は2つの側面にある。
1)より強固な視覚と言語連想を必要とする細かな視差
2) 限定的な教師付きデータにつながる手動アノテーションの高コスト化。
これらの課題に対処するため,我々は事前学習パラダイムに従う新しいモデリングフレームワークを提案する。
具体的には,視覚差とテキスト記述を細かなレベルで整列させるために,3つの自己教師付きタスクと対比学習戦略を設計する。
さらに,教師付きidcデータの制限を緩和するために,細粒度画像分類のためのデータなどの付加的なクロスタスク監視情報を活用するデータ拡張戦略を提案する。
CLEVR-ChangeとBirds-to-Wordsの2つのIDCベンチマークデータセットに対する大規模な実験は、提案したモデリングフレームワークの有効性を実証している。
コードとモデルはhttps://github.com/yaolinli/idcでリリースされる。
関連論文リスト
- OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。