論文の概要: Efficient Few-Shot Continual Learning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.04098v1
- Date: Thu, 06 Feb 2025 14:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:55.018179
- Title: Efficient Few-Shot Continual Learning in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける効率的なFew-Shot連続学習
- Authors: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E. Turner,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答や画像キャプションといったタスクに優れる。
VLMは、CLIPのような事前訓練されたイメージエンコーダの使用によって制限されることが多く、全体的なパフォーマンスを阻害する画像理解エラーを引き起こす。
本稿では,VLM内の画像エンコーダを選択的に更新する,堅牢で効率的なアルゴリズムであるLoRSUを提案する。
- 参考スコア(独自算出の注目度): 26.88977803220915
- License:
- Abstract: Vision-language models (VLMs) excel in tasks such as visual question answering and image captioning. However, VLMs are often limited by their use of pretrained image encoders, like CLIP, leading to image understanding errors that hinder overall performance. On top of that, real-world applications often require the model to be continuously adapted as new and often limited data continuously arrive. To address this, we propose LoRSU (Low-Rank Adaptation with Structured Updates), a robust and computationally efficient method for selectively updating image encoders within VLMs. LoRSU introduces structured and localized parameter updates, effectively correcting performance on previously error-prone data while preserving the model's general robustness. Our approach leverages theoretical insights to identify and update only the most critical parameters, achieving significant resource efficiency. Specifically, we demonstrate that LoRSU reduces computational overhead by over 25x compared to full VLM updates, without sacrificing performance. Experimental results on VQA tasks in the few-shot continual learning setting, validate LoRSU's scalability, efficiency, and effectiveness, making it a compelling solution for image encoder adaptation in resource-constrained environments.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的質問応答や画像キャプションといったタスクに優れる。
しかしながら、VLMはCLIPのような事前訓練されたイメージエンコーダの使用によって制限されることが多く、全体的なパフォーマンスを阻害する画像理解エラーを引き起こす。
それに加えて、現実世界のアプリケーションは、しばしば、新しい、しばしば制限されたデータが継続的に到着するようにモデルを継続的に適用する必要がある。
これを解決するために,VLM内の画像エンコーダを選択的に更新する堅牢で効率的なLoRSU(Low-Rank Adaptation with Structured Updates)を提案する。
LoRSUは構造化および局所化されたパラメータの更新を導入し、モデル全体の堅牢性を保ちながら、前回のエラーが発生しやすいデータのパフォーマンスを効果的に補正する。
我々のアプローチは、理論的な洞察を活用して、最も重要なパラメータのみを特定し、更新し、重要なリソース効率を達成する。
具体的には、LoRSUは性能を犠牲にすることなく、完全なVLM更新に比べて25倍以上の計算オーバーヘッドを削減できることを示す。
数ショットの連続学習環境におけるVQAタスクの実験結果から、LoRSUのスケーラビリティ、効率、有効性を検証することにより、リソース制約のある環境における画像エンコーダ適応のための魅力的なソリューションとなる。
関連論文リスト
- Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。
ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-07T04:24:07Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks [12.313257689227013]
本稿では,機能プルーニングと低信頼プルーテーションを統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。
SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。
実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性が示された。
論文 参考訳(メタデータ) (2024-10-10T03:57:48Z) - Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models [26.88977803220915]
視覚言語モデル内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。
提案手法では,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-23T14:39:40Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。