論文の概要: ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot
Retrieval of Images from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2007.12212v3
- Date: Wed, 23 Sep 2020 11:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:47:02.386341
- Title: ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot
Retrieval of Images from Textual Descriptions
- Title(参考訳): ZSCRGAN:テキスト記述からの画像のゼロショット検索のためのガンベース予測最大化モデル
- Authors: Anurag Roy, Vinay Kumar Verma, Kripabandhu Ghosh, Saptarshi Ghosh
- Abstract要約: 画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。
提案モデルは期待最大化フレームワークを用いて訓練される。
複数のベンチマークデータセットの実験により,提案したモデルは,画像検索モデルに対して,最先端のゼロショットテキストよりも快適に優れていることが示された。
- 参考スコア(独自算出の注目度): 13.15755441853131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing algorithms for cross-modal Information Retrieval are based on a
supervised train-test setup, where a model learns to align the mode of the
query (e.g., text) to the mode of the documents (e.g., images) from a given
training set. Such a setup assumes that the training set contains an exhaustive
representation of all possible classes of queries. In reality, a retrieval
model may need to be deployed on previously unseen classes, which implies a
zero-shot IR setup. In this paper, we propose a novel GAN-based model for
zero-shot text to image retrieval. When given a textual description as the
query, our model can retrieve relevant images in a zero-shot setup. The
proposed model is trained using an Expectation-Maximization framework.
Experiments on multiple benchmark datasets show that our proposed model
comfortably outperforms several state-of-the-art zero-shot text to image
retrieval models, as well as zero-shot classification and hashing models
suitably used for retrieval.
- Abstract(参考訳): クロスモーダルなインフォメーション検索のための既存のアルゴリズムは、モデルが与えられたトレーニングセットからドキュメントのモード(例えば画像)にクエリのモード(例えばテキスト)を合わせることを学習する、教師付きトレインテストのセットアップに基づいている。
このような設定は、トレーニングセットがクエリの可能なすべてのクラスの徹底的な表現を含むと仮定する。
実際、検索モデルは、ゼロショットir設定を含まないクラスにデプロイする必要があるかもしれない。
本稿では,画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。
クエリとしてテキスト記述が与えられると、モデルはゼロショット設定で関連画像を取得することができる。
提案モデルは期待最大化フレームワークを用いて訓練される。
複数のベンチマークデータセットを用いた実験により,提案手法は画像検索モデルやゼロショット分類やハッシュモデルなど,最先端のゼロショットテキストよりも快適に優れていることがわかった。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models [33.008325765051865]
クロスモーダル基盤モデルは、ドメイン固有の検索タスクに必要な重要な属性に焦点を合わせない。
本稿では,CLIP-ViT/G-14をベースとした自己拡張フレームワークA3Rを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:25:38Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Content-Based Search for Deep Generative Models [45.322081206025544]
クエリと生成モデルの大規模なセットを与えられた場合、クエリに最もよくマッチするモデルを見つける。
各生成モデルは画像の分布を生成するため、探索タスクを最適化問題として定式化し、クエリと類似したコンテンツを生成する確率が最も高いモデルを選択する。
提案手法は,モデル検索タスクのための新しいベンチマークである生成モデル動物園において,いくつかのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:59:51Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。