論文の概要: Towards Content-based Pixel Retrieval in Revisited Oxford and Paris
- arxiv url: http://arxiv.org/abs/2309.05438v1
- Date: Mon, 11 Sep 2023 13:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:36:26.116148
- Title: Towards Content-based Pixel Retrieval in Revisited Oxford and Paris
- Title(参考訳): オックスフォード・パリ再訪におけるコンテンツベース画素検索に向けて
- Authors: Guoyuan An, Woo Jae Kim, Saelyne Yang, Rong Li, Yuchi Huo, Sung-Eui
Yoon
- Abstract要約: 本稿では,最初の2つのピクセル検索ベンチマークを紹介する。
3つのプロのアノテータは、5,942枚の画像にダブルチェックとリファインメントの2ラウンドをラベル付けしている。
その結果, 画素検索タスクはこれらのアプローチに難題であり, 既存の問題とは異なることが判明した。
- 参考スコア(独自算出の注目度): 30.525361384257362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the first two pixel retrieval benchmarks. Pixel
retrieval is segmented instance retrieval. Like semantic segmentation extends
classification to the pixel level, pixel retrieval is an extension of image
retrieval and offers information about which pixels are related to the query
object. In addition to retrieving images for the given query, it helps users
quickly identify the query object in true positive images and exclude false
positive images by denoting the correlated pixels. Our user study results show
pixel-level annotation can significantly improve the user experience.
Compared with semantic and instance segmentation, pixel retrieval requires a
fine-grained recognition capability for variable-granularity targets. To this
end, we propose pixel retrieval benchmarks named PROxford and PRParis, which
are based on the widely used image retrieval datasets, ROxford and RParis.
Three professional annotators label 5,942 images with two rounds of
double-checking and refinement. Furthermore, we conduct extensive experiments
and analysis on the SOTA methods in image search, image matching, detection,
segmentation, and dense matching using our pixel retrieval benchmarks. Results
show that the pixel retrieval task is challenging to these approaches and
distinctive from existing problems, suggesting that further research can
advance the content-based pixel-retrieval and thus user search experience. The
datasets can be downloaded from
\href{https://github.com/anguoyuan/Pixel_retrieval-Segmented_instance_retrieval}{this
link}.
- Abstract(参考訳): 本稿では,最初の2つの画素検索ベンチマークを紹介する。
ピクセル検索は分割されたインスタンス検索である。
意味セグメンテーションがピクセルレベルに分類を拡張するように、ピクセル検索は画像検索の拡張であり、クエリオブジェクトに関連するピクセルに関する情報を提供する。
与えられたクエリのイメージ検索に加えて、真正の画像中のクエリオブジェクトを素早く識別し、相関したピクセルを示すことで偽陽性画像を除外する。
ユーザ調査の結果から,ピクセルレベルのアノテーションはユーザエクスペリエンスを著しく向上させることが示された。
セマンティックやインスタンスのセグメンテーションと比較すると、ピクセル検索は可変粒度ターゲットに対してきめ細かい認識能力を必要とする。
そこで本研究では,rxford と rparis という画像検索データセットに基づいて,proxford と prparis と呼ばれる画素検索ベンチマークを提案する。
3人の専門家が、ダブルチェックとリファインメントの2ラウンドの5,942枚の画像にラベルを付けています。
さらに,画素検索ベンチマークを用いて,画像検索,画像マッチング,検出,セグメンテーション,高密度マッチングにおけるsoma法に関する広範囲な実験と解析を行った。
以上の結果から,これらのアプローチでは画素検索作業が困難であり,既存の問題と異なることが示唆され,さらなる研究によりコンテンツベースの画素検索が進み,ユーザ検索エクスペリエンスが向上する可能性が示唆された。
データセットは \href{https://github.com/anguoyuan/Pixel_retrieval-Segmented_instance_retrieval}{this link} からダウンロードできる。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - Saliency Enhancement using Superpixel Similarity [77.34726150561087]
Saliency Object Detection (SOD) は画像解析にいくつかの応用がある。
深層学習に基づくSOD法は最も効果的であるが、類似した色を持つ前景の部品を見逃すことがある。
スーパーピクセル類似性(SESS)に対するtextitSaliency Enhancement というポストプロセッシング手法を導入する。
我々は,SESSが5つの画像データセット上での3つのディープラーニングに基づくSOD手法の結果を連続的に,かつ著しく改善できることを実証した。
論文 参考訳(メタデータ) (2021-12-01T17:22:54Z) - ISNet: Integrate Image-Level and Semantic-Level Context for Semantic
Segmentation [64.56511597220837]
共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。
既存のアプローチは、画像全体の観点からコンテキストをモデル化すること、すなわち、画像レベルのコンテキスト情報を集約することに焦点を当てている。
本稿では,画像レベルと意味レベルの文脈情報を集約することで,ピクセル表現を増大させる手法を提案する。
論文 参考訳(メタデータ) (2021-08-27T16:38:22Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z) - Content-based Image Retrieval and the Semantic Gap in the Deep Learning
Era [9.59805804476193]
コンテンツに基づく画像検索は、特に同じ物体の画像を検索する作業において、過去10年間に驚くべき進歩を遂げてきた。
インスタンス検索の最近の進歩は、より一般的な画像検索のシナリオに移行していますか?
まず、インスタンス検索の最も関連性の高いマイルストーンの概要を概説し、その後、セマンティック画像検索タスクに適用し、より洗練されていない、より汎用的な手法よりも劣る結果が得られた。
セマンティック画像検索のさらなる進歩の鍵となる問題は、標準化されたタスク定義と適切なベンチマークデータセットの欠如にあると結論付けている。
論文 参考訳(メタデータ) (2020-11-12T17:00:08Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。