論文の概要: Weakly-Supervised Conditional Embedding for Referred Visual Search
- arxiv url: http://arxiv.org/abs/2306.02928v1
- Date: Mon, 5 Jun 2023 14:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 14:21:32.880255
- Title: Weakly-Supervised Conditional Embedding for Referred Visual Search
- Title(参考訳): 参照ビジュアル検索のための弱改良条件付き埋め込み
- Authors: Simon Lepage, J\'er\'emie Mary, David Picard
- Abstract要約: 本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。
LAIONから抽出した842K画像と272Kのファッション製品からなる新しいデータセットLAION-RVS-Fashionを提案する。
弱い教師付きトレーニングを用いて条件付き埋め込みを学習する革新的な手法を提案し,2Mインタプリタを持つギャラリーに対して,リコールを1回(R@1)で6%増加させる方法を提案する。
- 参考スコア(独自算出の注目度): 20.810710415092974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach to image similarity search in the context
of fashion, a domain with inherent ambiguity due to the multiple ways in which
images can be considered similar. We introduce the concept of Referred Visual
Search (RVS), where users provide additional information to define the desired
similarity. We present a new dataset, LAION-RVS-Fashion, consisting of 272K
fashion products with 842K images extracted from LAION, designed explicitly for
this task. We then propose an innovative method for learning conditional
embeddings using weakly-supervised training, achieving a 6% increase in Recall
at one (R@1) against a gallery with 2M distractors, compared to classical
approaches based on explicit attention and filtering. The proposed method
demonstrates robustness, maintaining similar R@1 when dealing with 2.5 times as
many distractors as the baseline methods. We believe this is a step forward in
the emerging field of Referred Visual Search both in terms of accessible data
and approach. Code, data and models are available at
https://www.github.com/Simon-Lepage/CondViT-LRVSF .
- Abstract(参考訳): 本稿では,ファッションの文脈における画像類似性探索の新たなアプローチを提案する。
本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。
LAION-RVS-Fashionという新たなデータセットを,LAIONから抽出した842K画像を含む272Kのファッション製品から作成する。
そこで本研究では, 2mの注意とフィルタリングに基づく古典的アプローチと比較して, 1回 (r@1) のリコール率を6%向上させる, 弱教師訓練を用いた条件埋め込み学習法を提案する。
提案手法はロバスト性を示し、ベースラインメソッドの2.5倍の邪魔者を扱う場合に類似のr@1を保持する。
これは、アクセス可能なデータとアプローチの両方の観点から、Referred Visual Searchの新興分野における一歩だと思います。
コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。
関連論文リスト
- Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval [6.493562178111347]
オブジェクト認識型クエリ摂動に基づくクロスモーダル画像テキスト検索フレームワーク」を提案する。
提案手法では、既存のV&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整をすることなく、オブジェクト認識のクロスモーダルな画像テキスト検索が可能となる。
論文 参考訳(メタデータ) (2024-07-17T06:42:14Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。
Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。
モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文 参考訳(メタデータ) (2020-06-30T22:55:02Z) - A Strong Baseline for Fashion Retrieval with Person Re-Identification
Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。
ファッション検索のためのシンプルなベースラインモデルを導入する。
Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文 参考訳(メタデータ) (2020-03-09T12:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。