論文の概要: Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features
- arxiv url: http://arxiv.org/abs/2308.11485v1
- Date: Tue, 22 Aug 2023 15:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:37:29.940551
- Title: Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features
- Title(参考訳): コントラスト学習とタスク指向のクリップベース特徴を用いた合成画像検索
- Authors: Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo
- Abstract要約: 参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
- 参考スコア(独自算出の注目度): 32.138956674478116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a query composed of a reference image and a relative caption, the
Composed Image Retrieval goal is to retrieve images visually similar to the
reference one that integrates the modifications expressed by the caption. Given
that recent research has demonstrated the efficacy of large-scale vision and
language pre-trained (VLP) models in various tasks, we rely on features from
the OpenAI CLIP model to tackle the considered task. We initially perform a
task-oriented fine-tuning of both CLIP encoders using the element-wise sum of
visual and textual features. Then, in the second stage, we train a Combiner
network that learns to combine the image-text features integrating the bimodal
information and providing combined features used to perform the retrieval. We
use contrastive learning in both stages of training. Starting from the bare
CLIP features as a baseline, experimental results show that the task-oriented
fine-tuning and the carefully crafted Combiner network are highly effective and
outperform more complex state-of-the-art approaches on FashionIQ and CIRR, two
popular and challenging datasets for composed image retrieval. Code and
pre-trained models are available at https://github.com/ABaldrati/CLIP4Cir
- Abstract(参考訳): 参照画像と相対キャプションからなるクエリが与えられた場合、コンポジション画像検索目標は、キャプションで表現された修正を統合する参照画像と視覚的に類似した画像を取得することである。
最近の研究は、様々なタスクにおける大規模ビジョンと言語事前訓練(VLP)モデルの有効性を実証しているので、検討されたタスクに対処するために、OpenAI CLIPモデルの特徴に頼っている。
視覚的特徴とテキスト的特徴の要素的和を用いて,CLIPエンコーダのタスク指向の微調整を行う。
そして,第2段階では,バイモーダル情報の統合と検索に使用される複合機能の提供により,画像テキスト機能を組み合わせたコンバインタネットワークを訓練する。
私たちは両段階の訓練で対照的な学習を使う。
ベースラインとして裸のCLIP機能から、タスク指向の微調整と慎重に構築されたコンバインダーネットワークは、FashionIQとCIRRの2つの人気かつ挑戦的なデータセットである、より複雑な最先端のアプローチより優れていることを示す実験結果が得られた。
コードと事前トレーニングされたモデルはhttps://github.com/ABaldrati/CLIP4Cirで入手できる。
関連論文リスト
- Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。