論文の概要: Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval
- arxiv url: http://arxiv.org/abs/2308.04008v1
- Date: Tue, 8 Aug 2023 03:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:28:39.508880
- Title: Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval
- Title(参考訳): 単段画像検索のためのラフ・トゥ・フィギュア:学習コンパクト識別表現
- Authors: Yunquan Zhu, Xinkai Gao, Bo Ke, Ruizhi Qiao, Xing Sun
- Abstract要約: 検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
- 参考スコア(独自算出の注目度): 11.696941841000985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval targets to find images from a database that are visually
similar to the query image. Two-stage methods following retrieve-and-rerank
paradigm have achieved excellent performance, but their separate local and
global modules are inefficient to real-world applications. To better trade-off
retrieval efficiency and accuracy, some approaches fuse global and local
feature into a joint representation to perform single-stage image retrieval.
However, they are still challenging due to various situations to tackle,
$e.g.$, background, occlusion and viewpoint. In this work, we design a
Coarse-to-Fine framework to learn Compact Discriminative representation (CFCD)
for end-to-end single-stage image retrieval-requiring only image-level labels.
Specifically, we first design a novel adaptive softmax-based loss which
dynamically tunes its scale and margin within each mini-batch and increases
them progressively to strengthen supervision during training and intra-class
compactness. Furthermore, we propose a mechanism which attentively selects
prominent local descriptors and infuse fine-grained semantic relations into the
global representation by a hard negative sampling strategy to optimize
inter-class distinctiveness at a global scale. Extensive experimental results
have demonstrated the effectiveness of our method, which achieves
state-of-the-art single-stage image retrieval performance on benchmarks such as
Revisited Oxford and Revisited Paris. Code is available at
https://github.com/bassyess/CFCD.
- Abstract(参考訳): 画像検索ターゲットは、クエリ画像と視覚的に類似したデータベースから画像を見つける。
フェッチ・アンド・リランク・パラダイムに続く2段階のメソッドは優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは実世界のアプリケーションでは非効率である。
検索効率と精度を向上させるため、グローバル特徴とローカル特徴を融合表現に融合して単段画像検索を行う手法もある。
しかし、様々な状況、例えば$、バックグラウンド、オクルージョン、視点によって、これらは依然として困難である。
本研究では,一段階画像検索のためのコンパクト識別表現 (CFCD) を学習するための粗結合フレームワークを設計する。
具体的には,各ミニバッチのスケールとマージンを動的に調整し,トレーニングやクラス内コンパクト性の向上のために徐々に強化する,適応型ソフトマックスベースロスの設計を行った。
さらに,グローバルスケールでクラス間識別性を最適化するためのハードネガティブサンプリング戦略により,著名な局所記述子を注意深く選択し,詳細な意味関係をグローバル表現に注入するメカニズムを提案する。
Revisited Oxford や Revisited Paris などのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する手法の有効性を実証した。
コードはhttps://github.com/bassyess/CFCDで入手できる。
関連論文リスト
- Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based
Image Retrieval [28.022137537238425]
textbfApproaching-and-textbfCentralizing textbfACNetwork (termed textbfACNet'')を提案する。
検索モジュールは合成モジュールをガイドし、写真ドメインに徐々に接近する多彩な写真ライクな画像を生成する。
提案手法は、広く使われている2つのZS-SBIRデータセットの最先端性能を達成し、従来手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-24T19:36:10Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features [42.62089148690047]
エンドツーエンドの画像検索のための情報融合フレームワークとして,Deep Orthogonal Local and Global (DOLG)を提案する。
マルチアトラスな畳み込みと自己注意によって、代表的ローカル情報を注意深く抽出する。
フレームワーク全体がエンドツーエンドの差別化が可能で、イメージレベルのラベルでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-08-06T03:14:09Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。