論文の概要: Fine-grained Image Retrieval via Dual-Vision Adaptation
- arxiv url: http://arxiv.org/abs/2506.16273v1
- Date: Thu, 19 Jun 2025 12:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.071962
- Title: Fine-grained Image Retrieval via Dual-Vision Adaptation
- Title(参考訳): Dual-Vision Adaptationによるきめ細かい画像検索
- Authors: Xin Jiang, Meiqi Cao, Hao Tang, Fei Shen, Zechao Li,
- Abstract要約: Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。
本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 32.27084080471636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Grained Image Retrieval~(FGIR) faces challenges in learning discriminative visual representations to retrieve images with similar fine-grained features. Current leading FGIR solutions typically follow two regimes: enforce pairwise similarity constraints in the semantic embedding space, or incorporate a localization sub-network to fine-tune the entire model. However, such two regimes tend to overfit the training data while forgetting the knowledge gained from large-scale pre-training, thus reducing their generalization ability. In this paper, we propose a Dual-Vision Adaptation (DVA) approach for FGIR, which guides the frozen pre-trained model to perform FGIR through collaborative sample and feature adaptation. Specifically, we design Object-Perceptual Adaptation, which modifies input samples to help the pre-trained model perceive critical objects and elements within objects that are helpful for category prediction. Meanwhile, we propose In-Context Adaptation, which introduces a small set of parameters for feature adaptation without modifying the pre-trained parameters. This makes the FGIR task using these adjusted features closer to the task solved during the pre-training. Additionally, to balance retrieval efficiency and performance, we propose Discrimination Perception Transfer to transfer the discriminative knowledge in the object-perceptual adaptation to the image encoder using the knowledge distillation mechanism. Extensive experiments show that DVA has fewer learnable parameters and performs well on three in-distribution and three out-of-distribution fine-grained datasets.
- Abstract(参考訳): Fine-Grained Image Retrieval~(FGIR)は、識別的視覚表現を学習して、類似のきめ細かい特徴を持つ画像を検索する際の課題に直面している。
現在の指導的FGIRソリューションは、一般的に2つの規則に従う: セマンティック埋め込み空間においてペアワイズ類似性制約を強制するか、またはモデル全体を微調整するためにローカライズサブネットワークを組み込む。
しかし、これらの2つの体制は、大規模な事前学習から得られる知識を忘れつつ、トレーニングデータに過度に適合する傾向にあり、それによって一般化能力は低下する。
本稿では,FGIRに対するDVA(Dual-Vision Adaptation, Dual-Vision Adaptation)アプローチを提案する。
具体的には、事前学習されたモデルがカテゴリ予測に役立つオブジェクト内の重要なオブジェクトや要素を認識するのに役立つように、入力サンプルを変更するObject-Perceptual Adaptationを設計する。
In-Context Adaptationを提案し、事前訓練されたパラメータを変更することなく、特徴適応のための小さなパラメータセットを導入する。
これにより、FGIRタスクは、事前トレーニング中に解決されたタスクに近く、これらの調整された機能を使用することができる。
さらに,検索効率と性能のバランスをとるために,知識蒸留機構を用いて画像エンコーダへのオブジェクト認識適応における識別的知識の伝達を提案する。
大規模な実験によると、DVAは学習可能なパラメータが少なく、3つの分布内3つの分布内3つの粒度データセットでうまく機能している。
関連論文リスト
- Fine-Grained Image Recognition from Scratch with Teacher-Guided Data Augmentation [40.72028191529961]
きめ細かい画像認識(FGIR)は、視覚的に類似したサブカテゴリをより広いクラスで識別することを目的としている。
既存のFGIRメソッドのほとんどは、ImageNetのような大規模データセットで事前訓練されたバックボーンに依存している。
我々は,細粒度教師モデルを用いて,データ認識の強化と教師の監督の弱さを統合した新しいトレーニングフレームワークTGDAを導入する。
論文 参考訳(メタデータ) (2025-07-16T11:37:33Z) - Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。
本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。
提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-07-19T08:34:23Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。