論文の概要: Probabilistic Embeddings for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2101.05068v1
- Date: Wed, 13 Jan 2021 13:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:57:11.375662
- Title: Probabilistic Embeddings for Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索のための確率的埋め込み
- Authors: Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio de Rezende, Yannis
Kalantidis, Diane Larlus
- Abstract要約: クロスモーダル検索法は、複数のモダリティからのサンプルの共通表現空間を構築する。
本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。
代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
- 参考スコア(独自算出の注目度): 38.04859099157609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval methods build a common representation space for samples
from multiple modalities, typically from the vision and the language domains.
For images and their captions, the multiplicity of the correspondences makes
the task particularly challenging. Given an image (respectively a caption),
there are multiple captions (respectively images) that equally make sense. In
this paper, we argue that deterministic functions are not sufficiently powerful
to capture such one-to-many correspondences. Instead, we propose to use
Probabilistic Cross-Modal Embedding (PCME), where samples from the different
modalities are represented as probabilistic distributions in the common
embedding space. Since common benchmarks such as COCO suffer from
non-exhaustive annotations for cross-modal matches, we propose to additionally
evaluate retrieval on the CUB dataset, a smaller yet clean database where all
possible image-caption pairs are annotated. We extensively ablate PCME and
demonstrate that it not only improves the retrieval performance over its
deterministic counterpart, but also provides uncertainty estimates that render
the embeddings more interpretable.
- Abstract(参考訳): クロスモーダル検索法では、複数のモダリティ、典型的には視覚と言語領域からのサンプルの共通表現空間を構築する。
画像やキャプションについては、対応文の多さが課題を特に難しくしている。
画像(主にキャプション)が与えられると、同じ意味を持つ複数のキャプション(しばしば画像)が存在する。
本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。
代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
また,COCOなどの一般的なベンチマークでは,クロスモーダルマッチングのための非排他的アノテーションに悩まされているため,CUBデータセットの検索も追加で評価することを提案する。
我々はPCMEを広範囲に短縮し、決定論的手法よりも検索性能を向上するだけでなく、埋め込みをより解釈可能な不確実性の評価も提供することを示した。
関連論文リスト
- FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms [60.195642571004804]
署名された距離関数(SDF)を表す画像誘導型条件付きフローマッチングフレームワークであるFlowSDFを提案する。
SDFの条件分布の確率パスに直接関係するベクトル場を学習することにより、セグメント化マスクの分布から正確にサンプリングすることができる。
論文 参考訳(メタデータ) (2024-05-28T11:47:12Z) - DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。
DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。
さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文 参考訳(メタデータ) (2024-05-19T09:38:56Z) - ProTA: Probabilistic Token Aggregation for Text-Video Retrieval [15.891020334480826]
本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(ProTA)を提案する。
ProTAはMSR-VTT(50.9%)、SMDC(25.8%)、DiDeMo(47.2%)を大幅に改善する
論文 参考訳(メタデータ) (2024-04-18T14:20:30Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Uncertainty-based Cross-Modal Retrieval with Probabilistic
Representations [18.560958487332265]
確率的埋め込みは、画像マッチングにおけるあいまいさだけでなく、多文語の意味を捉えるのに有用であることが証明されている。
本稿では,既存の画像テキストマッチングモデルに標準ベクトル点埋め込みをパラメトリック学習した確率分布に置き換える簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T07:24:20Z) - Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:45:37Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。