Fugu-MT 論文翻訳(概要): CLIP4IDC: CLIP for Image Difference Captioning

論文の概要: CLIP4IDC: CLIP for Image Difference Captioning

arxiv url: http://arxiv.org/abs/2206.00629v1
Date: Wed, 1 Jun 2022 17:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 12:51:30.621109
Title: CLIP4IDC: CLIP for Image Difference Captioning
Title（参考訳）: CLIP4IDC:画像差分キャプションのためのCLIP
Authors: Zixin Guo, Tzu-Jui Julius Wang, Jorma Laaksonen
Abstract要約: 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述するために文を生成することを目的としている。 IDCタスクのCLIPモデルを転送してこれらの改善を実現するCLIP4IDCを提案する。
参考スコア（独自算出の注目度）: 7.905841619963381
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image Difference Captioning (IDC) aims at generating sentences to describe the differences between two similar-looking images. The conventional approaches learn captioning models on the offline-extracted visual features and the learning can not be propagated back to the fixed feature extractors pre-trained on image classification datasets. Accordingly, potential improvements can be made by fine-tuning the visual features for: 1) narrowing the gap when generalizing the visual extractor trained on image classification to IDC, and 2) relating the extracted visual features to the descriptions of the corresponding changes. We thus propose CLIP4IDC to transfer a CLIP model for the IDC task to attain these improvements. Different from directly fine-tuning CLIP to generate sentences, a task-specific domain adaptation is used to improve the extracted features. Specifically, the target is to train CLIP on raw pixels to relate the image pairs to the described changes. Afterwards, a vanilla Transformer is trained for IDC on the features extracted by the vision encoder of CLIP. Experiments on three IDC benchmark datasets, CLEVR-Change, Spot-the-Diff and Image-Editing-Request, demonstrate the effectiveness of CLIP4IDC. Our code and models will be released at https://github.com/sushizixin/CLIP4IDC.
Abstract（参考訳）: 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述する文を生成することを目的としている。従来の手法では、オフライン抽出された視覚特徴のキャプションモデルを学び、画像分類データセットで事前学習した固定特徴抽出器に学習を伝達することはできない。したがって、以下のビジュアル機能を微調整することで、潜在的な改善が可能になる。 1)画像分類で訓練した視覚抽出器をIDCに一般化する際のギャップを狭め、 2) 抽出された視覚的特徴と対応する変更の記述との関係。そこで本研究では,CLIP4IDCを用いてIDCタスクのCLIPモデルを転送し,これらの改善を実現する。文を生成するために直接調整するCLIPとは異なり、抽出された特徴を改善するためにタスク固有のドメイン適応が使用される。具体的には、画像ペアと記述された変更を関連付けるために、生のピクセルでCLIPをトレーニングする。その後、CLIPのビジョンエンコーダによって抽出された特徴に基づいて、IDCのためにバニラトランスフォーマーを訓練する。 CLEVR-Change、Spot-the-Diff、Image-Editing-Requestの3つのIDCベンチマークデータセットの実験では、CLIP4IDCの有効性が示されている。私たちのコードとモデルはhttps://github.com/sushizixin/clip4idcでリリースされる予定です。

関連論文リスト

un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
IDEA: Image Description Enhanced CLIP-Adapter [23.446016867479138]
画像分類タスクにCLIPを適用するための画像記述強化CLIP-Adapter (IDEA) 手法を提案する。 IDEAは、画像の視覚的特徴とテキスト記述の両方を活用することで、きめ細かい機能をキャプチャする。重要な貢献の一つとして、Llamaモデルを採用し、11データセットの画像のテキスト記述を生成する包括的なパイプラインを設計する。
論文参考訳（メタデータ） (2025-01-15T14:12:59Z)
DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。 DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-12-10T02:21:39Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-22T14:58:36Z)
CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文参考訳（メタデータ） (2022-11-25T09:41:57Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。