論文の概要: Improving Cross-Modal Retrieval with Set of Diverse Embeddings
- arxiv url: http://arxiv.org/abs/2211.16761v3
- Date: Mon, 24 Jul 2023 13:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:19:52.220130
- Title: Improving Cross-Modal Retrieval with Set of Diverse Embeddings
- Title(参考訳): 多様な組込みを用いたクロスモーダル検索の改善
- Authors: Dongwon Kim, Namyup Kim, Suha Kwak
- Abstract要約: 画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。
この問題の解決策として、セットベースの埋め込みが研究されている。
本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 19.365974066256026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal retrieval across image and text modalities is a challenging task
due to its inherent ambiguity: An image often exhibits various situations, and
a caption can be coupled with diverse images. Set-based embedding has been
studied as a solution to this problem. It seeks to encode a sample into a set
of different embedding vectors that capture different semantics of the sample.
In this paper, we present a novel set-based embedding method, which is distinct
from previous work in two aspects. First, we present a new similarity function
called smooth-Chamfer similarity, which is designed to alleviate the side
effects of existing similarity functions for set-based embedding. Second, we
propose a novel set prediction module to produce a set of embedding vectors
that effectively captures diverse semantics of input by the slot attention
mechanism. Our method is evaluated on the COCO and Flickr30K datasets across
different visual backbones, where it outperforms existing methods including
ones that demand substantially larger computation at inference.
- Abstract(参考訳): 画像とテキストのモダリティをまたいだクロスモーダル検索は、その固有のあいまいさのために難しい課題である: 画像はしばしば様々な状況を示し、キャプションは多様な画像と結合することができる。
集合ベースの埋め込みはこの問題の解決策として研究されている。
サンプルの異なるセマンティクスをキャプチャする埋め込みベクトルの集合に、サンプルをエンコードすることを目指している。
本稿では,前作とは2つの点で異なる,新しい集合ベース埋め込み手法を提案する。
まず,smooth-chamfer similarityと呼ばれる新しい類似度関数を提案する。
次に,スロットアテンション機構によって入力の多様なセマンティクスを効果的にキャプチャする組込みベクトルを生成するための新しいセット予測モジュールを提案する。
提案手法は,COCO と Flickr30K のデータセットを異なる視覚的バックボーンに分散して評価し,推論時の計算量を大幅に増大させる手法を含む既存手法よりも優れていた。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Cross-Modal Coordination Across a Diverse Set of Input Modalities [0.0]
クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。
本稿では,CLIPの相対的目的を任意の数の入力モダリティに拡張した上で,この問題に対する2つのアプローチを提案する。
第2は、対照的な定式化から外れ、目標に向かってモデアルの類似性を回帰することで調整問題に取り組む。
論文 参考訳(メタデータ) (2024-01-29T17:53:25Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - A Broader Picture of Random-walk Based Graph Embedding [2.6546685109604304]
ランダムウォークに基づくグラフ埋め込みは、多くのグラフ関連下流タスクに対する効果的なソリューションをサポートする。
本研究では,ランダムウォークプロセス,類似関数,埋め込みアルゴリズムという3つのコンポーネントからなるランダムウォークグラフ埋め込みの分析フレームワークを開発する。
自己共分散類似度に基づく埋め込みは,ドット製品ランキングと組み合わせてリンク予測を行う場合,ポイントワイズ・ミューチュアル・インフォメーション類似度に基づく最先端手法を最大100%向上させることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:40:16Z) - Batch Curation for Unsupervised Contrastive Representation Learning [21.83249229426828]
そこで本研究では,学習過程におけるバッチの選択を基本となるコントラスト目標とよりインラインに行うためのtextitbatch キュレーション手法を提案する。
CIFAR10 上での Textitbatch のキュレーションの検証だけでなく, 類似性, 相同性, 相同性, 相同性, 相同性, 相同性, 相同性などについて考察した。
論文 参考訳(メタデータ) (2021-08-19T12:14:50Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。