論文の概要: Probabilistic Compositional Embeddings for Multimodal Image Retrieval
- arxiv url: http://arxiv.org/abs/2204.05845v1
- Date: Tue, 12 Apr 2022 14:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:42:28.729915
- Title: Probabilistic Compositional Embeddings for Multimodal Image Retrieval
- Title(参考訳): マルチモーダル画像検索のための確率的合成埋め込み
- Authors: Andrei Neculai, Yanbei Chen, Zeynep Akata
- Abstract要約: 画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
- 参考スコア(独自算出の注目度): 48.450232527041436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works in image retrieval often consider retrieving images with one
or two query inputs, which do not generalize to multiple queries. In this work,
we investigate a more challenging scenario for composing multiple multimodal
queries in image retrieval. Given an arbitrary number of query images and (or)
texts, our goal is to retrieve target images containing the semantic concepts
specified in multiple multimodal queries. To learn an informative embedding
that can flexibly encode the semantics of various queries, we propose a novel
multimodal probabilistic composer (MPC). Specifically, we model input images
and texts as probabilistic embeddings, which can be further composed by a
probabilistic composition rule to facilitate image retrieval with multiple
multimodal queries. We propose a new benchmark based on the MS-COCO dataset and
evaluate our model on various setups that compose multiple images and (or) text
queries for multimodal image retrieval. Without bells and whistles, we show
that our probabilistic model formulation significantly outperforms existing
related methods on multimodal image retrieval while generalizing well to query
with different amounts of inputs given in arbitrary visual and (or) textual
modalities. Code is available here: https://github.com/andreineculai/MPC.
- Abstract(参考訳): 画像検索における既存の研究は、1つまたは2つのクエリ入力で画像を取得することを検討することが多い。
本研究では,画像検索において複数のマルチモーダルクエリを構成するためのより困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するために,新しい多モーダル確率作曲家(MPC)を提案する。
具体的には、入力画像とテキストを確率的埋め込みとしてモデル化し、複数のマルチモーダルクエリによる画像検索を容易にする確率的合成規則によりさらに構成することができる。
我々はMS-COCOデータセットに基づく新しいベンチマークを提案し、マルチモーダル画像検索のための複数の画像と(または)テキストクエリを構成する様々な設定でモデルを評価する。
ベルやホイッスルがなければ、我々の確率モデル定式化は既存のマルチモーダル画像検索手法よりも優れており、任意の視覚的および(あるいは)テクスチャ的モダリティで与えられた様々な入力のクエリをうまく一般化する。
コードは、https://github.com/andreineculai/MPC.comで入手できる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Self-supervised Multi-view Disentanglement for Expansion of Visual
Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。
ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。
本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-02-04T22:09:17Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Probabilistic Embeddings for Cross-Modal Retrieval [38.04859099157609]
クロスモーダル検索法は、複数のモダリティからのサンプルの共通表現空間を構築する。
本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。
代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
論文 参考訳(メタデータ) (2021-01-13T13:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。