論文の概要: Auxiliary Descriptive Knowledge for Few-Shot Adaptation of Vision-Language Model
- arxiv url: http://arxiv.org/abs/2512.17313v1
- Date: Fri, 19 Dec 2025 07:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.293369
- Title: Auxiliary Descriptive Knowledge for Few-Shot Adaptation of Vision-Language Model
- Title(参考訳): 視覚・言語モデルのFew-Shot適応のための補助的記述的知識
- Authors: SuBeen Lee, GilHan Park, WonJun Moon, Hyun Seok Seong, Jae-Pil Heo,
- Abstract要約: FSA-VLM(Few-Shot Adaptation)は、最小限のデータでモデルを適応するための重要なソリューションとして登場した。
FSA-VLM(Few-Shot Adaptation)は、一般的に使用される主要なソリューションである。
最小限のデータでモデルを適応するための効率的なファインチューニング(PEFT)。
ADKは、効率を損なうことなくテキスト表現を効率的に強化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 45.52442142624057
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the impressive zero-shot capabilities of Vision-Language Models (VLMs), they often struggle in downstream tasks with distribution shifts from the pre-training data. Few-Shot Adaptation (FSA-VLM) has emerged as a key solution, typically using Parameter-Efficient Fine-Tuning (PEFT) to adapt models with minimal data. However, these PEFT methods are constrained by their reliance on fixed, handcrafted prompts, which are often insufficient to understand the semantics of classes. While some studies have proposed leveraging image-induced prompts to provide additional clues for classification, they introduce prohibitive computational overhead at inference. Therefore, we introduce Auxiliary Descriptive Knowledge (ADK), a novel framework that efficiently enriches text representations without compromising efficiency. ADK first leverages a Large Language Model to generate a rich set of descriptive prompts for each class offline. These pre-computed features are then deployed in two ways: (1) as Compositional Knowledge, an averaged representation that provides rich semantics, especially beneficial when class names are ambiguous or unfamiliar to the VLM; and (2) as Instance-Specific Knowledge, where a lightweight, non-parametric attention mechanism dynamically selects the most relevant descriptions for a given image. This approach provides two additional types of knowledge alongside the handcrafted prompt, thereby facilitating category distinction across various domains. Also, ADK acts as a parameter-free, plug-and-play component that enhances existing PEFT methods. Extensive experiments demonstrate that ADK consistently boosts the performance of multiple PEFT baselines, setting a new state-of-the-art across various scenarios.
- Abstract(参考訳): VLM(Vision-Language Models)の印象的なゼロショット機能にもかかわらず、彼らはしばしば、事前トレーニングされたデータからの分散シフトを伴う下流タスクに苦労する。
FSA-VLM(Few-Shot Adaptation)は、パラメータ効率の良いファインチューニング(PEFT)を使用して、最小限のデータでモデルを適応するキーソリューションとして登場した。
しかし、これらのPEFT法は、固定された手作りのプロンプトに依存しているため、しばしばクラスのセマンティクスを理解するのに不十分である。
画像が引き起こすプロンプトを利用して分類の手がかりを与える研究もあるが、推論時に禁止的な計算オーバーヘッドを導入する。
そこで我々は,効率を損なうことなくテキスト表現を効率的に強化する新しいフレームワークであるAuxiliary Descriptive Knowledge (ADK)を紹介した。
ADKはまずLarge Language Modelを活用して,各クラスをオフラインで記述可能な豊富なプロンプトを生成する。
これらの事前計算された機能は、(1)構成的知識、特にクラス名がVLMに不明瞭で不慣れな場合に、リッチなセマンティクスを提供する平均表現、(2)軽量で非パラメトリックな注意機構が与えられた画像の最も関連性の高い記述を動的に選択するインスタンス特化知識という2つの方法で展開される。
このアプローチは、手作りのプロンプトと並んで、2つの付加的な知識を提供し、それによって様々な領域のカテゴリの区別を容易にする。
また、ADKは既存のPEFTメソッドを強化するパラメータフリーのプラグアンドプレイコンポーネントとして機能する。
大規模な実験により、ADKは複数のPEFTベースラインの性能を一貫して向上させ、様々なシナリオで新しい最先端を設定できることを示した。
関連論文リスト
- Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文 参考訳(メタデータ) (2025-08-06T02:44:08Z) - Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。
既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。
記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文 参考訳(メタデータ) (2025-07-09T07:55:25Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。