論文の概要: Fine-Grained VLM Fine-tuning via Latent Hierarchical Adapter Learning
- arxiv url: http://arxiv.org/abs/2508.11176v1
- Date: Fri, 15 Aug 2025 03:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.721028
- Title: Fine-Grained VLM Fine-tuning via Latent Hierarchical Adapter Learning
- Title(参考訳): 階層型適応学習による微粒化VLMファインチューニング
- Authors: Yumiao Zhao, Bo Jiang, Yuhe Ding, Xiao Wang, Jin Tang, Bin Luo,
- Abstract要約: 本研究は,視覚言語モデル(VLM)を微調整する新しいアダプタの開発である。
LatHAdapterの中核は、下流のトレーニングデータの潜在セマンティック階層を活用することである。
提案されたLatHAdapterは、他の細調整アプローチよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 21.093665370734684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-based approaches have garnered attention for fine-tuning pre-trained Vision-Language Models (VLMs) on few-shot classification tasks. These methods strive to develop a lightweight module that better aligns visual and (category) textual representations, thereby enhancing performance on downstream few-shot learning tasks. However, existing adapters generally learn/align (category) textual-visual modalities via explicit spatial proximity in the underlying embedding space, which i) fails to capture the inherent one-to-many associations between categories and image samples and ii) struggles to establish accurate associations between the unknown categories and images. To address these issues, inspired by recent works on hyperbolic learning, we develop a novel Latent Hierarchical Adapter (LatHAdapter) for fine-tuning VLMs on downstream few-shot classification tasks. The core of LatHAdapter is to exploit the latent semantic hierarchy of downstream training data and employ it to provide richer, fine-grained guidance for the adapter learning process. Specifically, LatHAdapter first introduces some learnable `attribute' prompts as the bridge to align categories and images. Then, it projects the categories, attribute prompts, and images within each batch in a hyperbolic space, and employs hierarchical regularization to learn the latent semantic hierarchy of them, thereby fully modeling the inherent one-to-many associations among categories, learnable attributes, and image samples. Extensive experiments on four challenging few-shot tasks show that the proposed LatHAdapter consistently outperforms many other fine-tuning approaches, particularly in adapting known classes and generalizing to unknown classes.
- Abstract(参考訳): 適応型アプローチは、数ショットの分類タスクにおいて、微調整済みの視覚言語モデル(VLM)に注意を向けている。
これらの手法は、視覚的および(カテゴリー的な)テキスト表現の整合性を向上し、下流の数ショット学習タスクのパフォーマンスを向上させる軽量なモジュールの開発を目指している。
しかし、既存のアダプタは一般に、下層の埋め込み空間における明示的な空間的近接を通して、テキスト・視覚的モダリティを学習/調整(分類)する。
一 分類と画像サンプルの固有の一対多の関連をとらえることに失敗したこと。
二 未知の分類と画像の正確な関連を確立するのに苦労すること。
これらの課題に対処するため、近年の双曲型学習の研究に触発され、下流の複数ショットの分類タスクを微調整する新しいラテント階層型適応器(LatHAdapter)を開発した。
LatHAdapterの中核は、下流のトレーニングデータの潜在的セマンティック階層を利用して、アダプタ学習プロセスのよりリッチできめ細かいガイダンスを提供することである。
具体的には、LatHAdapterはまず、カテゴリとイメージを整列するブリッジとして、学習可能な‘属性’プロンプトをいくつか導入する。
そして、ハイパーボリック空間内の各バッチ内のカテゴリ、属性プロンプト、イメージを投影し、階層的正規化を用いて、それらの潜在意味的階層を学習し、カテゴリ、学習可能な属性、イメージサンプル間の固有の1対多の関連を完全にモデル化する。
4つの挑戦的な数ショットタスクに関する大規模な実験は、提案されたLatHAdapterが、特に既知のクラスへの適応や未知のクラスへの一般化において、多くの微調整アプローチを一貫して上回っていることを示している。
関連論文リスト
- Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文 参考訳(メタデータ) (2025-08-06T02:44:08Z) - HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification [1.6385815610837167]
最近のCLIPに基づく手法では、画像分類タスクにおいてゼロショットと少数ショットのパフォーマンスが期待できる。
LRと高レベルセマンティック表現の相補的な長所を組み合わせたメタ機能適応法(MF-Adapter)を提案する。
提案手法は,最先端のCLIP下流数ショット分類法よりも優れており,難易度の高い視覚的分類課題に対して高い性能を示す。
論文 参考訳(メタデータ) (2024-07-08T06:18:04Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。