論文の概要: Towards Minimal Fine-Tuning of VLMs
- arxiv url: http://arxiv.org/abs/2512.19219v1
- Date: Mon, 22 Dec 2025 10:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.703079
- Title: Towards Minimal Fine-Tuning of VLMs
- Title(参考訳): VLMの極小調整に向けて
- Authors: Tiange Luo, Lajanugen Logeswaran, Jaekyeom Kim, Justin Johnson, Honglak Lee,
- Abstract要約: Image-LoRAは、トランスフォーマーベースの視覚言語モデルのための軽量パラメータ効率の良い微調整レシピである。
Image-LoRAは、視覚的なスパン内の注目層の値パスにのみ、低ランク適応を適用します。
トレーニング可能なパラメータが少なく、アダプタのみのトレーニング FLOP は少ないが、標準のLoRAの精度と一致または密接に対応している。
- 参考スコア(独自算出の注目度): 59.01498204407219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Image-LoRA, a lightweight parameter efficient fine-tuning (PEFT) recipe for transformer-based vision-language models (VLMs). Image-LoRA applies low-rank adaptation only to the value path of attention layers within the visual-token span, reducing adapter-only training FLOPs roughly in proportion to the visual-token fraction. We further adapt only a subset of attention heads, selected using head influence scores estimated with a rank-1 Image-LoRA, and stabilize per-layer updates via selection-size normalization. Across screen-centric grounding and referring benchmarks spanning text-heavy to image-heavy regimes, Image-LoRA matches or closely approaches standard LoRA accuracy while using fewer trainable parameters and lower adapter-only training FLOPs. The method also preserves the pure-text reasoning performance of VLMs before and after fine-tuning, as further shown on GSM8K.
- Abstract(参考訳): 本稿では、トランスフォーマーベース視覚言語モデル(VLM)のための軽量パラメータ効率的な微細チューニング(PEFT)レシピであるImage-LoRAを紹介する。
Image-LoRAは、視覚的トーケンスパン内の注目層の値パスのみにローランク適応を適用し、アダプターのみのトレーニングFLOPを、視覚的トーケンスパンにほぼ比例して減少させる。
さらに、ランク1画像ロラで推定される頭部影響スコアを用いて選択された注目ヘッドのサブセットのみを適応し、選択サイズ正規化による階層ごとの更新を安定化する。
画面中心のグラウンドと参照ベンチマークは、テキスト重から画像重大なレシエーション、イメージ-LoRAマッチ、あるいは標準のLoRA精度に近づきながら、トレーニング可能なパラメータを少なくし、アダプタのみのトレーニングFLOPを低くする。
また、この手法は、GSM8Kに示されているように、微調整前後のVLMの純粋テキスト推論性能も保持する。
関連論文リスト
- MSLoRA: Multi-Scale Low-Rank Adaptation via Attention Reweighting [6.335488846185043]
MSLoRAはバックボーンに依存しないパラメータ効率のよいアダプタで、バックボーンを再調整するのではなく、フィーチャーレスポンスを再重み付けする。
MSLoRAは、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方の適応を統一する
論文 参考訳(メタデータ) (2025-11-16T00:35:37Z) - ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。
本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文 参考訳(メタデータ) (2025-07-09T23:52:31Z) - Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models [48.22550575107633]
テキストと画像の拡散モデルにおいてパラメータ効率の良い微調整をゼロショットで適用できるProLoRAを導入する。
ProLoRAは、トレーニングデータを追加せずに、ソースからターゲットモデルに事前訓練された低ランク調整を転送する。
論文 参考訳(メタデータ) (2025-05-29T20:37:04Z) - MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning [5.412348391086257]
我々は,グローバル共有ロラ,ミッドレベル共有ロラ,レイヤ特化ロラを導入して,グローバルパターン,中間レベル特徴,きめ細かい情報をキャプチャするMPPLoRAを提案する。
様々なNLPタスクの実験により、MPPLoRAはトレーニング可能なパラメータの数を著しく減らしながら、より効率的な適応とより良い性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T07:01:50Z) - Complementary Subspace Low-Rank Adaptation of Vision-Language Models for Few-Shot Classification [6.801416831975985]
視覚言語モデル(VLM)は、事前訓練された基礎モデルとして大規模な画像テキストアライメントのために設計されている。
低ランク適応 (LoRA) アルゴリズムは、ショットファインチューニングVLMではめったに考慮されていない。
そこで本研究では,数発のVLMファインタニングにおいて,大惨な記憶問題を正規化するための補空間低階適応法(Comp-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T02:55:34Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。