論文の概要: Efficient Discovery and Effective Evaluation of Visual Perceptual
Similarity: A Benchmark and Beyond
- arxiv url: http://arxiv.org/abs/2308.14753v1
- Date: Mon, 28 Aug 2023 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:46:19.330871
- Title: Efficient Discovery and Effective Evaluation of Visual Perceptual
Similarity: A Benchmark and Beyond
- Title(参考訳): 視覚的類似性の効率的な発見と効果的な評価--ベンチマークとそれ以降
- Authors: Oren Barkan, Tal Reiss, Jonathan Weill, Ori Katz, Roy Hirsch, Itzik
Malkiel, Noam Koenigstein
- Abstract要約: 110K以上の専門家が注釈付けした画像ペアからなる,最初の大規模な視覚的類似度ベンチマークデータセットを紹介する。
本稿では,任意のデータセットに適用可能な,新規で効率的なラベル付け手法を提案する。
- 参考スコア(独自算出の注目度): 20.035369732786407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual similarities discovery (VSD) is an important task with broad
e-commerce applications. Given an image of a certain object, the goal of VSD is
to retrieve images of different objects with high perceptual visual similarity.
Although being a highly addressed problem, the evaluation of proposed methods
for VSD is often based on a proxy of an identification-retrieval task,
evaluating the ability of a model to retrieve different images of the same
object. We posit that evaluating VSD methods based on identification tasks is
limited, and faithful evaluation must rely on expert annotations. In this
paper, we introduce the first large-scale fashion visual similarity benchmark
dataset, consisting of more than 110K expert-annotated image pairs. Besides
this major contribution, we share insight from the challenges we faced while
curating this dataset. Based on these insights, we propose a novel and
efficient labeling procedure that can be applied to any dataset. Our analysis
examines its limitations and inductive biases, and based on these findings, we
propose metrics to mitigate those limitations. Though our primary focus lies on
visual similarity, the methodologies we present have broader applications for
discovering and evaluating perceptual similarity across various domains.
- Abstract(参考訳): 視覚類似性発見(VSD)は、幅広いeコマースアプリケーションにおいて重要な課題である。
ある物体の画像が与えられた場合、vsdの目標は、知覚的類似度の高い異なる物体の画像を取得することである。
高度に対処された問題であるが、vsdに対する提案手法の評価は、多くの場合、同一オブジェクトの異なる画像を取得するモデルの能力を評価する識別再試行タスクのプロキシに基づいている。
識別タスクに基づくVSD手法の評価は限定的であり、忠実な評価は専門家のアノテーションに頼らなければならないと仮定する。
そこで,本稿では,110k以上の画像ペアからなる,ファッションの視覚的類似度ベンチマークデータセットを初めて紹介する。
この大きな貢献に加えて、このデータセットをキュレートする際の課題に関する洞察を共有します。
これらの知見に基づいて,任意のデータセットに適用可能な新規かつ効率的なラベリング手順を提案する。
そこで本研究では,その限界と帰納的バイアスを考察し,それらの制約を緩和する指標を提案する。
我々の主な焦点は視覚的類似性であるが、我々が提示する方法論は様々な領域における知覚的類似性の検出と評価に広く応用されている。
関連論文リスト
- Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Are These the Same Apple? Comparing Images Based on Object Intrinsics [27.43687450076182]
オブジェクトの同一性を定義する固有のオブジェクトプロパティに基づいて、純粋に画像の類似性を測定する。
この問題はコンピュータビジョン文学において再同定として研究されている。
そこで本研究では,オブジェクト固有性に基づく画像類似度尺度を探索し,一般対象カテゴリに拡張することを提案する。
論文 参考訳(メタデータ) (2023-11-01T18:00:03Z) - FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding [7.272083488859574]
多様なパターンを持つ平坦な画像に対して,ビジュアル検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完する。
アウト・オブ・ディストリビューション領域のイメージ埋め込み品質を評価するためのテストベッドとして機能する。
論文 参考訳(メタデータ) (2023-09-28T08:41:51Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。