論文の概要: Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.10928v1
- Date: Sun, 17 Nov 2024 01:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:52.606865
- Title: Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning
- Title(参考訳): マルチモーダル大規模言語モデルファインチューニングにおける下流からの学習と自己実現
- Authors: Wenke Huang, Jian Liang, Zekun Shi, Didi Zhu, Guancheng Wan, He Li, Bo Du, Dacheng Tao, Mang Ye,
- Abstract要約: 微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
- 参考スコア(独自算出の注目度): 104.27224674122313
- License:
- Abstract: Multimodal Large Language Model (MLLM) have demonstrated strong generalization capabilities across diverse distributions and tasks, largely due to extensive pre-training datasets. Fine-tuning MLLM has become a common practice to improve performance on specific downstream tasks. However, during fine-tuning, MLLM often faces the risk of forgetting knowledge acquired during pre-training, which can result in a decline in generalization abilities. To balance the trade-off between generalization and specialization, we propose measuring the parameter importance for both pre-trained and fine-tuning distributions, based on frozen pre-trained weight magnitude and accumulated fine-tuning gradient values. We further apply an importance-aware weight allocation strategy, selectively updating relatively important parameters for downstream tasks. We conduct empirical evaluations on both image captioning and visual question-answering tasks using various MLLM architectures. The comprehensive experimental analysis demonstrates the effectiveness of the proposed solution, highlighting the efficiency of the crucial modules in enhancing downstream specialization performance while mitigating generalization degradation in MLLM Fine-Tuning.
- Abstract(参考訳): MLLM(Multimodal Large Language Model)は、様々な分散やタスクにまたがる強力な一般化能力を実証している。
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
しかし、微調整中、MLLMは事前学習中に取得した知識を忘れるリスクに直面することが多く、一般化能力は低下する可能性がある。
一般化と特殊化のトレードオフのバランスをとるため,凍結した事前学習重量の大きさと蓄積した微調整勾配値に基づいて,事前学習と微調整の両分布のパラメータ重要度を測定することを提案する。
さらに、下流タスクにおいて比較的重要なパラメータを選択的に更新する重み付け戦略を適用する。
様々なMLLMアーキテクチャを用いて,画像キャプションと視覚的質問応答の双方について実験的な評価を行った。
MLLMファインチューニングにおける一般化劣化を緩和しつつ,下流の特殊化性能を向上させる上で重要なモジュールの効率性を強調し,提案手法の有効性を実証した。
関連論文リスト
- Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [49.407311947143825]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
また,Mono-InternVLの視覚能力,すなわち内因性視覚前訓練(EViP)を最大化するための革新的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - Improving the Reusability of Pre-trained Language Models in Real-world
Applications [9.534831387705312]
Mask-tuning は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合し,PLM の一般化を促進する。
実験により、マスクチューニングは現在の最先端技術を上回ることが示された。
この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T21:00:16Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。