論文の概要: FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding
- arxiv url: http://arxiv.org/abs/2309.16249v1
- Date: Thu, 28 Sep 2023 08:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:29:00.137157
- Title: FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding
- Title(参考訳): FORB:Universal Image Embeddingのためのフラットオブジェクト検索ベンチマーク
- Authors: Pengxiang Wu, Siman Wang, Kevin Dela Rosa, Derek Hao Hu
- Abstract要約: 多様なパターンを持つ平坦な画像に対して,ビジュアル検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完する。
アウト・オブ・ディストリビューション領域のイメージ埋め込み品質を評価するためのテストベッドとして機能する。
- 参考スコア(独自算出の注目度): 7.272083488859574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval is a fundamental task in computer vision. Despite recent
advances in this field, many techniques have been evaluated on a limited number
of domains, with a small number of instance categories. Notably, most existing
works only consider domains like 3D landmarks, making it difficult to
generalize the conclusions made by these works to other domains, e.g., logo and
other 2D flat objects. To bridge this gap, we introduce a new dataset for
benchmarking visual search methods on flat images with diverse patterns. Our
flat object retrieval benchmark (FORB) supplements the commonly adopted 3D
object domain, and more importantly, it serves as a testbed for assessing the
image embedding quality on out-of-distribution domains. In this benchmark we
investigate the retrieval accuracy of representative methods in terms of
candidate ranks, as well as matching score margin, a viewpoint which is largely
ignored by many works. Our experiments not only highlight the challenges and
rich heterogeneity of FORB, but also reveal the hidden properties of different
retrieval strategies. The proposed benchmark is a growing project and we expect
to expand in both quantity and variety of objects. The dataset and supporting
codes are available at https://github.com/pxiangwu/FORB/.
- Abstract(参考訳): 画像検索はコンピュータビジョンの基本的なタスクである。
この分野の最近の進歩にもかかわらず、限られた数のドメインで多くの技術が評価され、少数のインスタンスカテゴリがある。
特に、既存の作品の多くは3Dランドマークのような領域しか考慮していないため、ロゴやその他の2Dフラットオブジェクトのような他の領域にこれらの作品によってなされた結論を一般化することは困難である。
このギャップを埋めるために,様々なパターンのフラット画像に対して視覚的検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完し、さらに重要なことは、分布外領域への画像埋め込み品質を評価するテストベッドとして機能する。
本ベンチマークでは,提案手法の検索精度を候補ランクの観点で検討するとともに,多くの作品で無視されているスコアマージンの一致について検討する。
実験では,forbの課題と豊富な多様性を浮き彫りにするだけでなく,異なる検索戦略の隠れた特性を明らかにする。
提案するベンチマークは、増大するプロジェクトであり、数量とさまざまなオブジェクトの両方を広げることを期待しています。
データセットとサポートコードはhttps://github.com/pxiangwu/forb/で入手できる。
関連論文リスト
- Efficient Discovery and Effective Evaluation of Visual Perceptual
Similarity: A Benchmark and Beyond [20.035369732786407]
110K以上の専門家が注釈付けした画像ペアからなる,最初の大規模な視覚的類似度ベンチマークデータセットを紹介する。
本稿では,任意のデータセットに適用可能な,新規で効率的なラベル付け手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T17:59:47Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Few-Shot Object Detection and Viewpoint Estimation for Objects in the
Wild [40.132988301147776]
少数ショットオブジェクト検出と少数ショット視点推定の問題に対処する。
両タスクにおいて,データから抽出したクラス表現機能を用いて,ネットワーク予測を導出する利点を実証する。
提案手法は,様々なデータセットに対して,最先端の手法よりも広いマージンで性能を向上する。
論文 参考訳(メタデータ) (2020-07-23T16:17:25Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z) - Extending and Analyzing Self-Supervised Learning Across Domains [50.13326427158233]
近年,自己指導型表現学習が目覚ましい成果を上げている。
実験は主にImageNetや他の同様の大規模なインターネット画像データセット上で行われる。
我々は、前例のない様々なドメインで、いくつかのポピュラーな手法を実験した。
論文 参考訳(メタデータ) (2020-04-24T21:18:02Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。