論文の概要: CLIP4IDC: CLIP for Image Difference Captioning
- arxiv url: http://arxiv.org/abs/2206.00629v1
- Date: Wed, 1 Jun 2022 17:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:51:30.621109
- Title: CLIP4IDC: CLIP for Image Difference Captioning
- Title(参考訳): CLIP4IDC:画像差分キャプションのためのCLIP
- Authors: Zixin Guo, Tzu-Jui Julius Wang, Jorma Laaksonen
- Abstract要約: 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述するために文を生成することを目的としている。
IDCタスクのCLIPモデルを転送してこれらの改善を実現するCLIP4IDCを提案する。
- 参考スコア(独自算出の注目度): 7.905841619963381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Difference Captioning (IDC) aims at generating sentences to describe
the differences between two similar-looking images. The conventional approaches
learn captioning models on the offline-extracted visual features and the
learning can not be propagated back to the fixed feature extractors pre-trained
on image classification datasets. Accordingly, potential improvements can be
made by fine-tuning the visual features for: 1) narrowing the gap when
generalizing the visual extractor trained on image classification to IDC, and
2) relating the extracted visual features to the descriptions of the
corresponding changes. We thus propose CLIP4IDC to transfer a CLIP model for
the IDC task to attain these improvements. Different from directly fine-tuning
CLIP to generate sentences, a task-specific domain adaptation is used to
improve the extracted features. Specifically, the target is to train CLIP on
raw pixels to relate the image pairs to the described changes. Afterwards, a
vanilla Transformer is trained for IDC on the features extracted by the vision
encoder of CLIP. Experiments on three IDC benchmark datasets, CLEVR-Change,
Spot-the-Diff and Image-Editing-Request, demonstrate the effectiveness of
CLIP4IDC. Our code and models will be released at
https://github.com/sushizixin/CLIP4IDC.
- Abstract(参考訳): 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述する文を生成することを目的としている。
従来の手法では、オフライン抽出された視覚特徴のキャプションモデルを学び、画像分類データセットで事前学習した固定特徴抽出器に学習を伝達することはできない。
したがって、以下のビジュアル機能を微調整することで、潜在的な改善が可能になる。
1)画像分類で訓練した視覚抽出器をIDCに一般化する際のギャップを狭め、
2) 抽出された視覚的特徴と対応する変更の記述との関係。
そこで本研究では,CLIP4IDCを用いてIDCタスクのCLIPモデルを転送し,これらの改善を実現する。
文を生成するために直接調整するCLIPとは異なり、抽出された特徴を改善するためにタスク固有のドメイン適応が使用される。
具体的には、画像ペアと記述された変更を関連付けるために、生のピクセルでCLIPをトレーニングする。
その後、CLIPのビジョンエンコーダによって抽出された特徴に基づいて、IDCのためにバニラトランスフォーマーを訓練する。
CLEVR-Change、Spot-the-Diff、Image-Editing-Requestの3つのIDCベンチマークデータセットの実験では、CLIP4IDCの有効性が示されている。
私たちのコードとモデルはhttps://github.com/sushizixin/clip4idcでリリースされる予定です。
関連論文リスト
- Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language
Fusion [24.804554907625594]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。