論文の概要: Content-based Image Retrieval and the Semantic Gap in the Deep Learning
Era
- arxiv url: http://arxiv.org/abs/2011.06490v1
- Date: Thu, 12 Nov 2020 17:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:52:00.433790
- Title: Content-based Image Retrieval and the Semantic Gap in the Deep Learning
Era
- Title(参考訳): 深層学習におけるコンテンツに基づく画像検索とセマンティックギャップ
- Authors: Bj\"orn Barz, Joachim Denzler
- Abstract要約: コンテンツに基づく画像検索は、特に同じ物体の画像を検索する作業において、過去10年間に驚くべき進歩を遂げてきた。
インスタンス検索の最近の進歩は、より一般的な画像検索のシナリオに移行していますか?
まず、インスタンス検索の最も関連性の高いマイルストーンの概要を概説し、その後、セマンティック画像検索タスクに適用し、より洗練されていない、より汎用的な手法よりも劣る結果が得られた。
セマンティック画像検索のさらなる進歩の鍵となる問題は、標準化されたタスク定義と適切なベンチマークデータセットの欠如にあると結論付けている。
- 参考スコア(独自算出の注目度): 9.59805804476193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based image retrieval has seen astonishing progress over the past
decade, especially for the task of retrieving images of the same object that is
depicted in the query image. This scenario is called instance or object
retrieval and requires matching fine-grained visual patterns between images.
Semantics, however, do not play a crucial role. This brings rise to the
question: Do the recent advances in instance retrieval transfer to more generic
image retrieval scenarios? To answer this question, we first provide a brief
overview of the most relevant milestones of instance retrieval. We then apply
them to a semantic image retrieval task and find that they perform inferior to
much less sophisticated and more generic methods in a setting that requires
image understanding. Following this, we review existing approaches to closing
this so-called semantic gap by integrating prior world knowledge. We conclude
that the key problem for the further advancement of semantic image retrieval
lies in the lack of a standardized task definition and an appropriate benchmark
dataset.
- Abstract(参考訳): コンテンツに基づく画像検索は過去10年間で驚くべき進歩を遂げてきた。
このシナリオはインスタンスまたはオブジェクト検索と呼ばれ、画像間のきめ細かい視覚パターンをマッチングする必要がある。
しかし、セマンティックスは重要な役割を果たさない。
インスタンス検索の最近の進歩は、より一般的な画像検索のシナリオに移行していますか?
この質問に答えるために、まずインスタンス検索の最も関連するマイルストーンの概要を説明します。
次に、意味的画像検索タスクに適用し、画像理解を必要とする設定において、より洗練されていない、より汎用的なメソッドよりも性能が劣ることを示す。
これに続いて,前世界の知識を統合することによって,いわゆる意味的ギャップを解消する既存のアプローチについて検討する。
セマンティック画像検索のさらなる進歩の鍵となる問題は、標準化されたタスク定義と適切なベンチマークデータセットの欠如にあると結論付けている。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。
我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。
2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-04-20T12:23:29Z) - Bridging the Gap between Local Semantic Concepts and Bag of Visual Words
for Natural Scene Image Retrieval [0.0]
典型的なコンテンツベースの画像検索システムは、低レベルの特徴の集合としてデータセット内のクエリ画像と画像を扱う。
検索されたリストの上位画像は、クエリ画像と高い類似性を持つが、ユーザの意味論的解釈の観点からは、クエリ画像と異なる場合がある。
本稿では,視覚的単語モデルと局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。
論文 参考訳(メタデータ) (2022-10-17T09:10:50Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。