論文の概要: Fine-grained Image Retrieval via Dual-Vision Adaptation
- arxiv url: http://arxiv.org/abs/2506.16273v1
- Date: Thu, 19 Jun 2025 12:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.071962
- Title: Fine-grained Image Retrieval via Dual-Vision Adaptation
- Title(参考訳): Dual-Vision Adaptationによるきめ細かい画像検索
- Authors: Xin Jiang, Meiqi Cao, Hao Tang, Fei Shen, Zechao Li,
- Abstract要約: Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。
本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 32.27084080471636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Grained Image Retrieval~(FGIR) faces challenges in learning discriminative visual representations to retrieve images with similar fine-grained features. Current leading FGIR solutions typically follow two regimes: enforce pairwise similarity constraints in the semantic embedding space, or incorporate a localization sub-network to fine-tune the entire model. However, such two regimes tend to overfit the training data while forgetting the knowledge gained from large-scale pre-training, thus reducing their generalization ability. In this paper, we propose a Dual-Vision Adaptation (DVA) approach for FGIR, which guides the frozen pre-trained model to perform FGIR through collaborative sample and feature adaptation. Specifically, we design Object-Perceptual Adaptation, which modifies input samples to help the pre-trained model perceive critical objects and elements within objects that are helpful for category prediction. Meanwhile, we propose In-Context Adaptation, which introduces a small set of parameters for feature adaptation without modifying the pre-trained parameters. This makes the FGIR task using these adjusted features closer to the task solved during the pre-training. Additionally, to balance retrieval efficiency and performance, we propose Discrimination Perception Transfer to transfer the discriminative knowledge in the object-perceptual adaptation to the image encoder using the knowledge distillation mechanism. Extensive experiments show that DVA has fewer learnable parameters and performs well on three in-distribution and three out-of-distribution fine-grained datasets.
- Abstract(参考訳): Fine-Grained Image Retrieval~(FGIR)は、識別的視覚表現を学習して、類似のきめ細かい特徴を持つ画像を検索する際の課題に直面している。
現在の指導的FGIRソリューションは、一般的に2つの規則に従う: セマンティック埋め込み空間においてペアワイズ類似性制約を強制するか、またはモデル全体を微調整するためにローカライズサブネットワークを組み込む。
しかし、これらの2つの体制は、大規模な事前学習から得られる知識を忘れつつ、トレーニングデータに過度に適合する傾向にあり、それによって一般化能力は低下する。
本稿では,FGIRに対するDVA(Dual-Vision Adaptation, Dual-Vision Adaptation)アプローチを提案する。
具体的には、事前学習されたモデルがカテゴリ予測に役立つオブジェクト内の重要なオブジェクトや要素を認識するのに役立つように、入力サンプルを変更するObject-Perceptual Adaptationを設計する。
In-Context Adaptationを提案し、事前訓練されたパラメータを変更することなく、特徴適応のための小さなパラメータセットを導入する。
これにより、FGIRタスクは、事前トレーニング中に解決されたタスクに近く、これらの調整された機能を使用することができる。
さらに,検索効率と性能のバランスをとるために,知識蒸留機構を用いて画像エンコーダへのオブジェクト認識適応における識別的知識の伝達を提案する。
大規模な実験によると、DVAは学習可能なパラメータが少なく、3つの分布内3つの分布内3つの粒度データセットでうまく機能している。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。