論文の概要: PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2602.07768v1
- Date: Sun, 08 Feb 2026 01:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.793074
- Title: PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
- Title(参考訳): PAND:軽度細粒視覚分類のためのプロンプト-アウェア近傍蒸留法
- Authors: Qiuming Luo, Yuebing Li, Feng Li, Chang Kong,
- Abstract要約: 構造移動からセマンティックキャリブレーションを分離するフレームワークであるPAND(Prompt-Aware Neborhood Distillation)を提案する。
PANDは4つのFine-Grain-ed Visual Classificationベンチマークにおいて、最先端のメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 2.4234827752164727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classification (FGVC), due to the reliance on fixed prompts and global alignment. To address this, we propose PAND (Prompt-Aware Neighborhood Distillation), a two-stage framework that decouples semantic calibration from structural transfer. First, we incorporate Prompt-Aware Semantic Calibration to generate adaptive semantic anchors. Second, we introduce a neighborhood-aware structural distillation strategy to constrain the student's local decision structure. PAND consistently outperforms state-of-the-art methods on four FGVC benchmarks. Notably, our ResNet-18 student achieves 76.09% accuracy on CUB-200, surpassing the strong baseline VL2Lite by 3.4%. Code is available at https://github.com/LLLVTA/PAND.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)から軽量ネットワークへ知識を蒸留することは、固定されたプロンプトとグローバルアライメントに依存するため、FGVC(Fold-Grained Visual Classification)において極めて困難である。
そこで本研究では, セマンティックキャリブレーションを構造移動から分離する2段階のフレームワークであるPAND(Prompt-Aware Neighborhood Distillation)を提案する。
まず、適応的なセマンティックアンカーを生成するために、Prompt-Aware Semantic Calibrationを組み込む。
第2に,学生の局所的決定構造を抑制するため,近隣に意識した構造蒸留戦略を導入する。
PANDは4つのFGVCベンチマークで最先端の手法を一貫して上回っている。
特に、我々のResNet-18の学生はCUB-200で76.09%の精度を達成し、強力なベースラインVL2Liteを3.4%上回っている。
コードはhttps://github.com/LLLVTA/PANDで入手できる。
関連論文リスト
- View Invariant Learning for Vision-Language Navigation in Continuous Environments [1.2530458935333404]
VLNCE(Vision-Language Navigation in Continuous Environments)は、AIの具体化における重要な研究課題である。
ほとんどのナビゲーションポリシーは、視点の変化、すなわち、エージェントの観察を変えるカメラの高さと視角の変化に敏感である。
カメラ視点の変化に対する既存のナビゲーションポリシーの堅牢性を高めるために,ビュー不変なポストトレーニング戦略であるVIL(View Invariant Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-05T18:04:35Z) - HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment [16.926158907882012]
本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-16T19:05:33Z) - ViLA: Efficient Video-Language Alignment for Video Question Answering [22.972518862771697]
我々のViLAネットワークは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方に対処する。
我々のViLAネットワークは、ビデオ質問応答ベンチマークにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-12-13T18:58:15Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - SEA: Bridging the Gap Between One- and Two-stage Detector Distillation
via SEmantic-aware Alignment [76.80165589520385]
細粒度情報を抽象化する性質から,SEA (SEmantic-Aware Alignment) 蒸留法を命名した。
1段検出器と2段検出器の両方において、挑戦的な物体検出タスクにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2022-03-02T04:24:05Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。