論文の概要: Rethinking Fine-Tuning: Unlocking Hidden Capabilities in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.23073v1
- Date: Sun, 28 Dec 2025 20:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.353072
- Title: Rethinking Fine-Tuning: Unlocking Hidden Capabilities in Vision-Language Models
- Title(参考訳): ファインチューニングの再考:視覚言語モデルにおける隠れた能力のアンロック
- Authors: Mingyuan Zhang, Yue Bai, Yifan Wang, Yiyang Huang, Yun Fu,
- Abstract要約: Mask Fine-Tuning (MFT)は、言語モデルのための強力で効率的なポストトレーニングパラダイムである。
MFT は LoRA の変種を一貫して上回り、フル微調整さえも可能であることを示す。
本研究は,重みの更新だけでなく,既存の知識間の関係を再構築することで,効果的な適応が可能であることを明らかにした。
- 参考スコア(独自算出の注目度): 44.50699778141182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explorations in fine-tuning Vision-Language Models (VLMs), such as Low-Rank Adaptation (LoRA) from Parameter Efficient Fine-Tuning (PEFT), have made impressive progress. However, most approaches rely on explicit weight updates, overlooking the extensive representational structures already encoded in pre-trained models that remain underutilized. Recent works have demonstrated that Mask Fine-Tuning (MFT) can be a powerful and efficient post-training paradigm for language models. Instead of updating weights, MFT assigns learnable gating scores to each weight, allowing the model to reorganize its internal subnetworks for downstream task adaptation. In this paper, we rethink fine-tuning for VLMs from a structural reparameterization perspective grounded in MFT. We apply MFT to the language and projector components of VLMs with different language backbones and compare against strong PEFT baselines. Experiments show that MFT consistently surpasses LoRA variants and even full fine-tuning, achieving high performance without altering the frozen backbone. Our findings reveal that effective adaptation can emerge not only from updating weights but also from reestablishing connections among the model's existing knowledge. Code available at: https://github.com/Ming-K9/MFT-VLM
- Abstract(参考訳): パラメータ有効微調整(PEFT)によるローランド適応(LoRA)のような微調整型視覚言語モデル(VLM)の探索は、目覚ましい進歩を遂げた。
しかし、ほとんどのアプローチは明示的な重み更新に依存しており、未使用のまま訓練済みのモデルですでに符号化されている広範な表現構造を見渡している。
近年の研究では、Mask Fine-Tuning (MFT) が言語モデルのための強力で効率的な後学習パラダイムであることが示されている。
ウェイトを更新する代わりに、MFTは学習可能なゲーティングスコアを各ウェイトに割り当て、モデルが下流タスク適応のために内部サブネットを再編成することを可能にする。
本稿では,MFTを基盤とした構造的パラメータ化の観点から,VLMの微調整について再考する。
我々は、異なる言語バックボーンを持つVLMの言語およびプロジェクタコンポーネントにMDTを適用し、強力なPEFTベースラインと比較する。
実験の結果、MFTはロラの変種を一貫して上回り、完全な微調整さえでき、冷凍したバックボーンを変更することなく高い性能を達成できた。
本研究は,重みの更新だけでなく,既存の知識間の関係を再構築することで,効果的な適応が可能であることを明らかにした。
https://github.com/Ming-K9/MFT-VLM
関連論文リスト
- ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models [10.17362679822278]
大規模な言語モデルは、幅広いタスクにわたって強力なパフォーマンスを示してきましたが、それらを新しいドメインに効率的に適用することは、依然として重要な課題です。
ABBAは、独立に学習可能な2つの低ランク行列のアダマール積として更新を再パラメータ化する新しいPEFTアーキテクチャである。
以前の作業とは対照的に、ABBAは事前訓練された重量からアップデートを完全に切り離し、両方のコンポーネントを自由に最適化できる。
論文 参考訳(メタデータ) (2025-05-20T11:43:25Z) - Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-19T05:16:21Z) - Boosting Large Language Models with Mask Fine-Tuning [60.56962908455601]
Mask Fine-Tuning (MFT)を導入し、モデルの整合性を適切に破壊すると驚くほど性能が向上することを示した。
MFTは様々なドメインやバックボーンで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T20:17:57Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - ReFT: Representation Finetuning for Language Models [74.51093640257892]
我々はRepresentation Finetuning(ReFT)手法のファミリーを開発する。
ReFTはフリーズベースモデルで動作し、隠れた表現に対するタスク固有の介入を学ぶ。
我々は,8つの常識推論タスク,4つの算術推論タスク,命令チューニング,GLUEについてLoReFTを紹介する。
論文 参考訳(メタデータ) (2024-04-04T17:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。