論文の概要: Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model
- arxiv url: http://arxiv.org/abs/2509.03895v1
- Date: Thu, 04 Sep 2025 05:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.062749
- Title: Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model
- Title(参考訳): Attn-Adapter:視覚ランゲージモデルのオンライン学習者には注意が必要だ
- Authors: Phuoc-Nguyen Bui, Khanh-Binh Nguyen, Hyunseung Choo,
- Abstract要約: Attn-Adapterは、CLIPの適応性を高める新しいオンライン数発学習フレームワークである。
我々の設計では、サポート例を使ってカテゴリ埋め込みを洗練するMemory Attn-Adapterと、ローカル機能とグローバル機能を統合することで画像埋め込みを強化したLocal-Global Attn-Adapterという2つのコンポーネントを通じて、データセット固有の情報を組み込んでいる。
Attn-Adapterは、クロスカテゴリとクロスデータセットの一般化において最先端のメソッドより優れており、CLIPバックボーン間の効率的な推論とスケーリングを維持している。
- 参考スコア(独自算出の注目度): 2.2099003320482393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive vision-language models excel in zero-shot image recognition but face challenges in few-shot scenarios due to computationally intensive offline fine-tuning using prompt learning, which risks overfitting. To overcome these limitations, we propose Attn-Adapter, a novel online few-shot learning framework that enhances CLIP's adaptability via a dual attention mechanism. Our design incorporates dataset-specific information through two components: the Memory Attn-Adapter, which refines category embeddings using support examples, and the Local-Global Attn-Adapter, which enriches image embeddings by integrating local and global features. This architecture enables dynamic adaptation from a few labeled samples without retraining the base model. Attn-Adapter outperforms state-of-the-art methods in cross-category and cross-dataset generalization, maintaining efficient inference and scaling across CLIP backbones.
- Abstract(参考訳): 対照的に、視覚言語モデルはゼロショット画像認識では優れているが、計算集約的なオフライン微調整により、過度に適合するリスクがあるため、数ショットのシナリオでは課題に直面している。
これらの制限を克服するために、我々はCLIPの適応性を高める新しいオンライン数ショット学習フレームワークであるAttn-Adapterを提案する。
我々の設計では、サポート例を使ってカテゴリ埋め込みを洗練するMemory Attn-Adapterと、ローカル機能とグローバル機能を統合することで画像埋め込みを強化したLocal-Global Attn-Adapterという2つのコンポーネントを通じて、データセット固有の情報を組み込んでいる。
このアーキテクチャは、ベースモデルを再トレーニングすることなく、ラベル付きサンプルからの動的適応を可能にする。
Attn-Adapterは、クロスカテゴリとクロスデータセットの一般化において最先端のメソッドより優れており、CLIPバックボーン間の効率的な推論とスケーリングを維持している。
関連論文リスト
- Fine-Grained VLM Fine-tuning via Latent Hierarchical Adapter Learning [21.093665370734684]
本研究は,視覚言語モデル(VLM)を微調整する新しいアダプタの開発である。
LatHAdapterの中核は、下流のトレーニングデータの潜在セマンティック階層を活用することである。
提案されたLatHAdapterは、他の細調整アプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-08-15T03:02:36Z) - AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection [39.72202031440292]
普遍的な視覚異常検出は、新しい視覚領域や見えない視覚領域からの異常を、追加の微調整なしで識別することを目的としている。
近年の研究では、CLIPのような事前学習された視覚言語モデルは、ゼロまたは少数の正常な画像で強力な一般化を示すことが示されている。
本稿では2つの重要な洞察に基づいて,AdaptCLIPと呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-15T03:24:28Z) - HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。