論文の概要: Weakly-Supervised Conditional Embedding for Referred Visual Search
- arxiv url: http://arxiv.org/abs/2306.02928v2
- Date: Wed, 27 Mar 2024 08:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:22:06.694575
- Title: Weakly-Supervised Conditional Embedding for Referred Visual Search
- Title(参考訳): 参照ビジュアル検索のための弱改良された条件付き埋め込み
- Authors: Simon Lepage, Jérémie Mary, David Picard,
- Abstract要約: 提案するReferred Visual Search(RVS)は,ユーザが希望する類似性をより正確に定義できるタスクである。
業界における従来のビジュアルサーチ手法とは異なり、明示的なオブジェクト検出を回避し、優れた性能を達成できることを実証する。
提案手法は軽量でロバスト性を示し、2Morsに対する強力な検出ベースラインよりも優れたリコールを実現する。
- 参考スコア(独自算出の注目度): 13.590668564555195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new challenge for image similarity search in the context of fashion, addressing the inherent ambiguity in this domain stemming from complex images. We present Referred Visual Search (RVS), a task allowing users to define more precisely the desired similarity, following recent interest in the industry. We release a new large public dataset, LAION-RVS-Fashion, consisting of 272k fashion products with 842k images extracted from LAION, designed explicitly for this task. However, unlike traditional visual search methods in the industry, we demonstrate that superior performance can be achieved by bypassing explicit object detection and adopting weakly-supervised conditional contrastive learning on image tuples. Our method is lightweight and demonstrates robustness, reaching Recall at one superior to strong detection-based baselines against 2M distractors. Code, data and models are available at https://www.github.com/Simon-Lepage/CondViT-LRVSF .
- Abstract(参考訳): 本稿では、複雑な画像から生じる領域内固有のあいまいさに対処するため、ファッションの文脈における画像類似性検索の新たな課題を提案する。
我々は、最近業界への関心が高まり、ユーザが望ましい類似性をより正確に定義できるタスクであるReferred Visual Search(RVS)を提示する。
LAION-RVS-Fashionは272Kのファッション製品で、LAIONから842kの画像が抽出され、このタスクのために明示的に設計されている。
しかし、業界における従来の視覚探索法とは異なり、明示的な対象検出を回避し、画像タプルに弱教師付き条件付きコントラスト学習を採用することにより、優れた性能が得られることを示す。
提案手法は軽量でロバスト性を示し,2Mイントラクタに対する強力な検出ベースラインよりも優れたリコールを実現する。
コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。
Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。
モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文 参考訳(メタデータ) (2020-06-30T22:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。