論文の概要: Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2308.15273v1
- Date: Tue, 29 Aug 2023 13:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:06:07.195006
- Title: Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索と推論:クロスモーダル検索によるゼロショット分類の改善
- Authors: Seongha Eom, Namgyu Ho, Jaehoon Oh and Se-Young Yun
- Abstract要約: CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 29.838375158101027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive language-image pre-training (CLIP) has demonstrated remarkable
zero-shot classification ability, namely image classification using novel text
labels. Existing works have attempted to enhance CLIP by fine-tuning on
downstream tasks, but these have inadvertently led to performance degradation
on unseen classes, thus harming zero-shot generalization. This paper aims to
address this challenge by leveraging readily available image-text pairs from an
external dataset for cross-modal guidance during inference. To this end, we
propose X-MoRe, a novel inference method comprising two key steps: (1)
cross-modal retrieval and (2) modal-confidence-based ensemble. Given a query
image, we harness the power of CLIP's cross-modal representations to retrieve
relevant textual information from an external image-text pair dataset. Then, we
assign higher weights to the more reliable modality between the original query
image and retrieved text, contributing to the final prediction. X-MoRe
demonstrates robust performance across a diverse set of tasks without the need
for additional training, showcasing the effectiveness of utilizing cross-modal
features to maximize CLIP's zero-shot ability.
- Abstract(参考訳): 対照的な言語画像事前訓練(CLIP)は,新規なテキストラベルを用いた画像分類において,顕著なゼロショット分類能力を示した。
既存の作業では下流タスクの微調整によるクリップの強化が試みられているが、これらは不注意なクラスのパフォーマンス低下を招き、ゼロショットの一般化に影響を与えている。
本稿では,外部データセットから容易に使用可能な画像テキストペアを活用して,推論中のクロスモーダルガイダンスを行うことで,この課題を解決することを目的とする。
そこで本研究では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つのステップからなる新しい推論手法であるX-MoReを提案する。
クエリ画像が与えられた場合、CLIPのクロスモーダル表現のパワーを利用して、外部画像-テキストペアデータセットから関連するテキスト情報を検索する。
そして,元のクエリ画像と検索したテキストとのより信頼性の高いモダリティに重みを割り当て,最終的な予測に寄与する。
x-moreは、追加のトレーニングを必要とせず、さまざまなタスクのロバストなパフォーマンスを示し、クリップのゼロショット能力を最大化するためにクロスモーダル機能を利用する効果を示している。
関連論文リスト
- Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Calibrating Cross-modal Features for Text-Based Person Searching [18.3145271655619]
本稿では,2つの視点から横断的特徴を校正する簡易かつ効果的な手法を提案する。
提案手法は,2つの新たな損失から成り,細粒度のクロスモーダルな特徴を提供する。
73.81%、74.25%、57.35%の精度で3つの人気のあるベンチマークで上位となる。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。