論文の概要: CLIP4IDC: CLIP for Image Difference Captioning
- arxiv url: http://arxiv.org/abs/2206.00629v1
- Date: Wed, 1 Jun 2022 17:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:51:30.621109
- Title: CLIP4IDC: CLIP for Image Difference Captioning
- Title(参考訳): CLIP4IDC:画像差分キャプションのためのCLIP
- Authors: Zixin Guo, Tzu-Jui Julius Wang, Jorma Laaksonen
- Abstract要約: 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述するために文を生成することを目的としている。
IDCタスクのCLIPモデルを転送してこれらの改善を実現するCLIP4IDCを提案する。
- 参考スコア(独自算出の注目度): 7.905841619963381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Difference Captioning (IDC) aims at generating sentences to describe
the differences between two similar-looking images. The conventional approaches
learn captioning models on the offline-extracted visual features and the
learning can not be propagated back to the fixed feature extractors pre-trained
on image classification datasets. Accordingly, potential improvements can be
made by fine-tuning the visual features for: 1) narrowing the gap when
generalizing the visual extractor trained on image classification to IDC, and
2) relating the extracted visual features to the descriptions of the
corresponding changes. We thus propose CLIP4IDC to transfer a CLIP model for
the IDC task to attain these improvements. Different from directly fine-tuning
CLIP to generate sentences, a task-specific domain adaptation is used to
improve the extracted features. Specifically, the target is to train CLIP on
raw pixels to relate the image pairs to the described changes. Afterwards, a
vanilla Transformer is trained for IDC on the features extracted by the vision
encoder of CLIP. Experiments on three IDC benchmark datasets, CLEVR-Change,
Spot-the-Diff and Image-Editing-Request, demonstrate the effectiveness of
CLIP4IDC. Our code and models will be released at
https://github.com/sushizixin/CLIP4IDC.
- Abstract(参考訳): 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述する文を生成することを目的としている。
従来の手法では、オフライン抽出された視覚特徴のキャプションモデルを学び、画像分類データセットで事前学習した固定特徴抽出器に学習を伝達することはできない。
したがって、以下のビジュアル機能を微調整することで、潜在的な改善が可能になる。
1)画像分類で訓練した視覚抽出器をIDCに一般化する際のギャップを狭め、
2) 抽出された視覚的特徴と対応する変更の記述との関係。
そこで本研究では,CLIP4IDCを用いてIDCタスクのCLIPモデルを転送し,これらの改善を実現する。
文を生成するために直接調整するCLIPとは異なり、抽出された特徴を改善するためにタスク固有のドメイン適応が使用される。
具体的には、画像ペアと記述された変更を関連付けるために、生のピクセルでCLIPをトレーニングする。
その後、CLIPのビジョンエンコーダによって抽出された特徴に基づいて、IDCのためにバニラトランスフォーマーを訓練する。
CLEVR-Change、Spot-the-Diff、Image-Editing-Requestの3つのIDCベンチマークデータセットの実験では、CLIP4IDCの有効性が示されている。
私たちのコードとモデルはhttps://github.com/sushizixin/clip4idcでリリースされる予定です。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。