論文の概要: Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
- arxiv url: http://arxiv.org/abs/2506.06905v2
- Date: Tue, 10 Jun 2025 07:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.292585
- Title: Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
- Title(参考訳): 視力検査におけるメタ適応型プロンプト蒸留法
- Authors: Akash Gupta, Amos Storkey, Mirella Lapata,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、最小限の監督で新しいタスクを実行するために、コンテキスト内学習(ICL)に依存することが多い。
ICLの性能、特に小さなLMMでは、一貫性がなく、例の増加とともに常に単調に改善するとは限らない。
メタラーニング手法を提案することで,LMMの少数ショット機能を実現する方法を提案する。
- 参考スコア(独自算出の注目度): 53.82094608038132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) often rely on in-context learning (ICL) to perform new tasks with minimal supervision. However, ICL performance, especially in smaller LMMs, is inconsistent and does not always improve monotonically with increasing examples. We hypothesize that this occurs due to the LMM being overwhelmed by additional information present in the image embeddings, which is not required for the downstream task. To address this, we propose a meta-learning approach that provides an alternative for inducing few-shot capabilities in LMMs, using a fixed set of soft prompts that are distilled from task-relevant image features and can be adapted at test time using a few examples. To facilitate this distillation, we introduce an attention-mapper module that can be easily integrated with the popular LLaVA v1.5 architecture and is jointly learned with soft prompts, enabling task adaptation in LMMs under low-data regimes with just a few gradient steps. Evaluation on the VL-ICL Bench shows that our method consistently outperforms ICL and related prompt-tuning approaches, even under image perturbations, improving task induction and reasoning across visual question answering tasks.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、最小限の監督で新しいタスクを実行するために、コンテキスト内学習(ICL)に依存することが多い。
しかし、特に小型のLMMではICL性能は不整合であり、実例の増加とともに単調に改善するとは限らない。
我々は、LMMが画像埋め込みに存在する追加情報に圧倒され、下流タスクには必要ないため、このことが生じると仮定する。
そこで本研究では,タスク関連画像の特徴から抽出したソフトプロンプトの固定セットを用いて,LMMで少数ショット機能を誘導する代替手段を提供するメタラーニング手法を提案する。
この蒸留を容易にするために、一般的なLLaVA v1.5アーキテクチャと容易に統合でき、ソフトプロンプトと共同で学習できるアテンション・マッパー・モジュールを導入する。
VL-ICL Bench を用いた評価では,画像摂動下であっても,ICL と関連するプロンプトチューニングアプローチを一貫して上回り,視覚的質問応答タスクにおけるタスク誘導と推論の改善が図られている。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction [24.675876324457747]
Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。
LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
論文 参考訳(メタデータ) (2024-04-01T04:39:21Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。