論文の概要: Compositional Learning of Image-Text Query for Image Retrieval
- arxiv url: http://arxiv.org/abs/2006.11149v3
- Date: Mon, 31 May 2021 21:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 05:08:44.803885
- Title: Compositional Learning of Image-Text Query for Image Retrieval
- Title(参考訳): 画像検索のための画像テキストクエリの構成学習
- Authors: Muhammad Umer Anwaar, Egor Labintcev, Martin Kleinsteuber
- Abstract要約: 画像検索のための画像とテキストクエリの合成を学習するための自動エンコーダベースモデルComposeAEを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
- 参考スコア(独自算出の注目度): 3.9348884623092517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the problem of retrieving images from a
database based on a multi-modal (image-text) query. Specifically, the query
text prompts some modification in the query image and the task is to retrieve
images with the desired modifications. For instance, a user of an E-Commerce
platform is interested in buying a dress, which should look similar to her
friend's dress, but the dress should be of white color with a ribbon sash. In
this case, we would like the algorithm to retrieve some dresses with desired
modifications in the query dress. We propose an autoencoder based model,
ComposeAE, to learn the composition of image and text query for retrieving
images. We adopt a deep metric learning approach and learn a metric that pushes
composition of source image and text query closer to the target images. We also
propose a rotational symmetry constraint on the optimization problem. Our
approach is able to outperform the state-of-the-art method TIRG \cite{TIRG} on
three benchmark datasets, namely: MIT-States, Fashion200k and Fashion IQ. In
order to ensure fair comparison, we introduce strong baselines by enhancing
TIRG method. To ensure reproducibility of the results, we publish our code
here: \url{https://github.com/ecom-research/ComposeAE}.
- Abstract(参考訳): 本稿では,マルチモーダル(画像テキスト)クエリに基づいて,データベースから画像を取得する問題について検討する。
具体的には、クエリテキストはクエリイメージにいくつかの変更を促し、タスクは所望の修正で画像を取得することである。
例えば、eコマースプラットフォームのユーザは、友人のドレスに似たドレスを買うことに興味がありますが、そのドレスはリボンサッシ付きの白い色です。
この場合、クエリードレスに望ましい変更を加えて、いくつかのドレスを検索するアルゴリズムが望まれる。
本稿では,画像検索のための画像およびテキストクエリの構成を学ぶための自動エンコーダモデルcomposeaeを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
また,最適化問題に対する回転対称性制約を提案する。
我々のアプローチは、MIT-States、Fashion200k、Fashion IQという3つのベンチマークデータセット上で、最先端のTIRG \cite{TIRG}よりも優れている。
公平な比較を確保するため,TIRG法の強化により,強いベースラインを導入する。
結果の再現性を確保するため、私たちは次のようにコードを公開します。
関連論文リスト
- Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy [23.041812897803034]
Zero-shot Composed Image Retrieval (ZSCIR)は、クエリイメージと相対的なキャプションにマッチした画像を取得する必要がある。
我々は、クエリ画像とテキスト記述に整合したプロキシ画像を生成する訓練不要な方法であるImagined Proxy for CIR(IP-CIR)を紹介した。
新たに提案したバランス指標はテキストベースとプロキシ検索の類似性を統合し,より正確な画像検索を可能にする。
論文 参考訳(メタデータ) (2024-11-24T05:27:21Z) - Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs [44.48400303207482]
ゼロショット合成画像検索(CIR)の目的は、クエリ画像とクエリテキストを用いてターゲット画像を取得することである。
既存の方法は、テキスト変換ネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成する。
マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:10:30Z) - MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-28T17:59:20Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。