Fugu-MT 論文翻訳(概要): Weakly-Supervised Conditional Embedding for Referred Visual Search

論文の概要: Weakly-Supervised Conditional Embedding for Referred Visual Search

arxiv url: http://arxiv.org/abs/2306.02928v2
Date: Wed, 27 Mar 2024 08:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 23:22:06.694575
Title: Weakly-Supervised Conditional Embedding for Referred Visual Search
Title（参考訳）: 参照ビジュアル検索のための弱改良された条件付き埋め込み
Authors: Simon Lepage, Jérémie Mary, David Picard,
Abstract要約: 提案するReferred Visual Search(RVS)は,ユーザが希望する類似性をより正確に定義できるタスクである。業界における従来のビジュアルサーチ手法とは異なり、明示的なオブジェクト検出を回避し、優れた性能を達成できることを実証する。提案手法は軽量でロバスト性を示し、2Morsに対する強力な検出ベースラインよりも優れたリコールを実現する。
参考スコア（独自算出の注目度）: 13.590668564555195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a new challenge for image similarity search in the context of fashion, addressing the inherent ambiguity in this domain stemming from complex images. We present Referred Visual Search (RVS), a task allowing users to define more precisely the desired similarity, following recent interest in the industry. We release a new large public dataset, LAION-RVS-Fashion, consisting of 272k fashion products with 842k images extracted from LAION, designed explicitly for this task. However, unlike traditional visual search methods in the industry, we demonstrate that superior performance can be achieved by bypassing explicit object detection and adopting weakly-supervised conditional contrastive learning on image tuples. Our method is lightweight and demonstrates robustness, reaching Recall at one superior to strong detection-based baselines against 2M distractors. Code, data and models are available at https://www.github.com/Simon-Lepage/CondViT-LRVSF .
Abstract（参考訳）: 本稿では、複雑な画像から生じる領域内固有のあいまいさに対処するため、ファッションの文脈における画像類似性検索の新たな課題を提案する。我々は、最近業界への関心が高まり、ユーザが望ましい類似性をより正確に定義できるタスクであるReferred Visual Search(RVS)を提示する。 LAION-RVS-Fashionは272Kのファッション製品で、LAIONから842kの画像が抽出され、このタスクのために明示的に設計されている。しかし、業界における従来の視覚探索法とは異なり、明示的な対象検出を回避し、画像タプルに弱教師付き条件付きコントラスト学習を採用することにより、優れた性能が得られることを示す。提案手法は軽量でロバスト性を示し,2Mイントラクタに対する強力な検出ベースラインよりも優れたリコールを実現する。コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。

関連論文リスト

Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。 COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文参考訳（メタデータ） (2025-08-06T13:11:40Z)
Visualized Text-to-Image Retrieval [55.178938325324864]
テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。 VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
論文参考訳（メタデータ） (2025-05-26T17:59:33Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval [6.493562178111347]
オブジェクト認識型クエリ摂動に基づくクロスモーダル画像テキスト検索フレームワーク」を提案する。提案手法では、既存のV&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整をすることなく、オブジェクト認識のクロスモーダルな画像テキスト検索が可能となる。
論文参考訳（メタデータ） (2024-07-17T06:42:14Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文参考訳（メタデータ） (2022-03-15T17:29:20Z)
Contextual Similarity Aggregation with Self-attention for Visual Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文参考訳（メタデータ） (2021-10-26T06:20:31Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)
Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文参考訳（メタデータ） (2021-08-20T14:02:38Z)
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-09T13:25:06Z)
Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文参考訳（メタデータ） (2021-04-16T13:27:45Z)
Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。 Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文参考訳（メタデータ） (2020-06-30T22:55:02Z)
A Strong Baseline for Fashion Retrieval with Person Re-Identification Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。ファッション検索のためのシンプルなベースラインモデルを導入する。 Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文参考訳（メタデータ） (2020-03-09T12:50:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。