論文の概要: GPR1200: A Benchmark for General-Purpose Content-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2111.13122v1
- Date: Thu, 25 Nov 2021 15:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:15:51.637263
- Title: GPR1200: A Benchmark for General-Purpose Content-Based Image Retrieval
- Title(参考訳): GPR1200: 汎用コンテンツベース画像検索のためのベンチマーク
- Authors: Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung
- Abstract要約: 本研究では,大規模な事前学習が検索性能を大幅に向上させることを示すとともに,適切な微調整を行うことで,これらの特性をさらに向上させる実験を行う。
これらの有望な成果により、汎用CBIRの研究分野への関心を高めたい。
- 参考スコア(独自算出の注目度): 2.421459418045937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though it has extensively been shown that retrieval specific training of
deep neural networks is beneficial for nearest neighbor image search quality,
most of these models are trained and tested in the domain of landmarks images.
However, some applications use images from various other domains and therefore
need a network with good generalization properties - a general-purpose CBIR
model. To the best of our knowledge, no testing protocol has so far been
introduced to benchmark models with respect to general image retrieval quality.
After analyzing popular image retrieval test sets we decided to manually curate
GPR1200, an easy to use and accessible but challenging benchmark dataset with a
broad range of image categories. This benchmark is subsequently used to
evaluate various pretrained models of different architectures on their
generalization qualities. We show that large-scale pretraining significantly
improves retrieval performance and present experiments on how to further
increase these properties by appropriate fine-tuning. With these promising
results, we hope to increase interest in the research topic of general-purpose
CBIR.
- Abstract(参考訳): ディープニューラルネットワークの検索特有のトレーニングは、近接する画像検索品質に有益であることが広く示されているが、これらのモデルのほとんどは、ランドマーク画像の領域でトレーニングされ、テストされている。
しかし、いくつかのアプリケーションは様々なドメインの画像を使用し、そのため汎用CBIRモデルである優れた一般化特性を持つネットワークが必要である。
我々の知る限り、一般的な画像検索の品質に関して、ベンチマークモデルにテストプロトコルは導入されていない。
人気のある画像検索テストセットを分析した後、私たちはGPR1200を手作業でキュレートすることにしました。
このベンチマークはその後、様々なアーキテクチャの事前訓練されたモデルとその一般化特性を評価するために使用される。
大規模事前学習は検索性能を著しく向上させ,適切な微調整によりこれらの特性をさらに向上させる実験を行った。
これらの有望な成果により、汎用CBIRの研究分野への関心を高めたい。
関連論文リスト
- Few-Shot Anomaly Detection via Category-Agnostic Registration Learning [65.64252994254268]
既存のほとんどの異常検出方法は、各カテゴリに専用のモデルを必要とする。
この記事では、新しい数ショットAD(FSAD)フレームワークを提案する。
これは新しいカテゴリーのモデル微調整を必要としない最初のFSAD法である。
論文 参考訳(メタデータ) (2024-06-13T05:01:13Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - A ResNet is All You Need? Modeling A Strong Baseline for Detecting
Referable Diabetic Retinopathy in Fundus Images [0.0]
我々は、シンプルな標準のResNet-18アーキテクチャに基づいて、このタスクの強力なベースラインをモデル化する。
我々のモデルは、異なる公開データセットから得られた61007個のテスト画像の組み合わせで、AUC = 0.955を達成した。
論文 参考訳(メタデータ) (2022-10-06T19:40:56Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - A Decade Survey of Content Based Image Retrieval using Deep Learning [13.778851745408133]
本稿では,コンテンツベース画像検索における過去10年間のディープラーニングベース開発に関する包括的調査について述べる。
クエリ画像の代表的な特徴とデータセット画像との類似性は、検索のために画像のランク付けに使用される。
ディープラーニングは、手作業で設計した機能工学の、10年前から支配的な代替手段として現れてきた。
論文 参考訳(メタデータ) (2020-11-23T02:12:30Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z) - CBIR using features derived by Deep Learning [0.0]
CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。
本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習したネットワークモデルから派生した特徴を用いることを提案する。
論文 参考訳(メタデータ) (2020-02-13T21:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。