論文の概要: Weakly-Supervised Conditional Embedding for Referred Visual Search
- arxiv url: http://arxiv.org/abs/2306.02928v1
- Date: Mon, 5 Jun 2023 14:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 14:21:32.880255
- Title: Weakly-Supervised Conditional Embedding for Referred Visual Search
- Title(参考訳): 参照ビジュアル検索のための弱改良条件付き埋め込み
- Authors: Simon Lepage, J\'er\'emie Mary, David Picard
- Abstract要約: 本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。
LAIONから抽出した842K画像と272Kのファッション製品からなる新しいデータセットLAION-RVS-Fashionを提案する。
弱い教師付きトレーニングを用いて条件付き埋め込みを学習する革新的な手法を提案し,2Mインタプリタを持つギャラリーに対して,リコールを1回(R@1)で6%増加させる方法を提案する。
- 参考スコア(独自算出の注目度): 20.810710415092974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach to image similarity search in the context
of fashion, a domain with inherent ambiguity due to the multiple ways in which
images can be considered similar. We introduce the concept of Referred Visual
Search (RVS), where users provide additional information to define the desired
similarity. We present a new dataset, LAION-RVS-Fashion, consisting of 272K
fashion products with 842K images extracted from LAION, designed explicitly for
this task. We then propose an innovative method for learning conditional
embeddings using weakly-supervised training, achieving a 6% increase in Recall
at one (R@1) against a gallery with 2M distractors, compared to classical
approaches based on explicit attention and filtering. The proposed method
demonstrates robustness, maintaining similar R@1 when dealing with 2.5 times as
many distractors as the baseline methods. We believe this is a step forward in
the emerging field of Referred Visual Search both in terms of accessible data
and approach. Code, data and models are available at
https://www.github.com/Simon-Lepage/CondViT-LRVSF .
- Abstract(参考訳): 本稿では,ファッションの文脈における画像類似性探索の新たなアプローチを提案する。
本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。
LAION-RVS-Fashionという新たなデータセットを,LAIONから抽出した842K画像を含む272Kのファッション製品から作成する。
そこで本研究では, 2mの注意とフィルタリングに基づく古典的アプローチと比較して, 1回 (r@1) のリコール率を6%向上させる, 弱教師訓練を用いた条件埋め込み学習法を提案する。
提案手法はロバスト性を示し、ベースラインメソッドの2.5倍の邪魔者を扱う場合に類似のr@1を保持する。
これは、アクセス可能なデータとアプローチの両方の観点から、Referred Visual Searchの新興分野における一歩だと思います。
コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。
Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。
モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文 参考訳(メタデータ) (2020-06-30T22:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。