論文の概要: A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
- arxiv url: http://arxiv.org/abs/2602.16590v1
- Date: Wed, 18 Feb 2026 16:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.653124
- Title: A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
- Title(参考訳): ストリートビュー画像分類のための注意型特徴適応を利用したコントラスト学習フレームワーク
- Authors: Qi You, Yitai Cheng, Zichao Zeng, James Haworth,
- Abstract要約: ストリートビュー画像属性分類は、画像分類の重要な下流課題であり、自動運転、都市分析、高精細地図構築などの応用を可能にする。
CLIP-MHAdapterは、パッチ間の依存関係をモデル化するために、マルチヘッド自己アテンションを備えたボトルネックを付加する、現在の軽量CLIP適応パラダイムの亜種である。
約1.4万のトレーニング可能なパラメータで、CLIP-MHAdapterは、Global StreetScapesデータセット上の8つの属性分類タスクに対して、計算コストを低く保ちながら、新しい最先端の結果を達成する、優れた、あるいは競合的な精度を達成する。
- 参考スコア(独自算出の注目度): 0.7746379804154433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Street-view image attribute classification is a vital downstream task of image classification, enabling applications such as autonomous driving, urban analytics, and high-definition map construction. It remains computationally demanding whether training from scratch, initialising from pre-trained weights, or fine-tuning large models. Although pre-trained vision-language models such as CLIP offer rich image representations, existing adaptation or fine-tuning methods often rely on their global image embeddings, limiting their ability to capture fine-grained, localised attributes essential in complex, cluttered street scenes. To address this, we propose CLIP-MHAdapter, a variant of the current lightweight CLIP adaptation paradigm that appends a bottleneck MLP equipped with multi-head self-attention operating on patch tokens to model inter-patch dependencies. With approximately 1.4 million trainable parameters, CLIP-MHAdapter achieves superior or competitive accuracy across eight attribute classification tasks on the Global StreetScapes dataset, attaining new state-of-the-art results while maintaining low computational cost. The code is available at https://github.com/SpaceTimeLab/CLIP-MHAdapter.
- Abstract(参考訳): ストリートビュー画像属性分類は、画像分類の重要な下流課題であり、自動運転、都市分析、高精細地図構築などの応用を可能にする。
スクラッチからトレーニングするか、事前訓練された重量から初期化するか、微調整された大型モデルかを計算的に要求する。
CLIPのような事前訓練された視覚言語モデルは、リッチなイメージ表現を提供するが、既存の適応や微調整方法は、しばしばグローバルなイメージ埋め込みに依存し、複雑で散らかった街路シーンに不可欠な、きめ細かな局所化された属性をキャプチャする能力を制限している。
この問題に対処するために,パッチトークンを用いたマルチヘッド自己アテンション操作を備えたボトルネックMLPを付加し,パッチ間の依存関係をモデル化する,現在の軽量CLIP適応パラダイムの変種であるCLIP-MHAdapterを提案する。
約1.4万のトレーニング可能なパラメータで、CLIP-MHAdapterは、Global StreetScapesデータセット上の8つの属性分類タスクに対して、計算コストを低く保ちながら、新しい最先端の結果を達成する、優れた、あるいは競合的な精度を達成する。
コードはhttps://github.com/SpaceTimeLab/CLIP-MHAdapterで入手できる。
関連論文リスト
- Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model [2.2099003320482393]
Attn-Adapterは、CLIPの適応性を高める新しいオンライン数発学習フレームワークである。
我々の設計では、サポート例を使ってカテゴリ埋め込みを洗練するMemory Attn-Adapterと、ローカル機能とグローバル機能を統合することで画像埋め込みを強化したLocal-Global Attn-Adapterという2つのコンポーネントを通じて、データセット固有の情報を組み込んでいる。
Attn-Adapterは、クロスカテゴリとクロスデータセットの一般化において最先端のメソッドより優れており、CLIPバックボーン間の効率的な推論とスケーリングを維持している。
論文 参考訳(メタデータ) (2025-09-04T05:42:02Z) - Fine-Grained VLM Fine-tuning via Latent Hierarchical Adapter Learning [21.093665370734684]
本研究は,視覚言語モデル(VLM)を微調整する新しいアダプタの開発である。
LatHAdapterの中核は、下流のトレーニングデータの潜在セマンティック階層を活用することである。
提案されたLatHAdapterは、他の細調整アプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-08-15T03:02:36Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。