論文の概要: Boosting Large Language Models with Mask Fine-Tuning
- arxiv url: http://arxiv.org/abs/2503.22764v1
- Date: Thu, 27 Mar 2025 20:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:54.483221
- Title: Boosting Large Language Models with Mask Fine-Tuning
- Title(参考訳): マスクファインチューニングによる大規模言語モデルの強化
- Authors: Mingyuan Zhang, Yue Bai, Huan Wang, Yizhou Wang, Qihua Dong, Yun Fu,
- Abstract要約: Mask Fine-Tuning (MFT)を導入し、モデルの整合性を適切に破壊すると驚くほど性能が向上することを示した。
MFTは様々なドメインやバックボーンで一貫したパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 60.56962908455601
- License:
- Abstract: The model is usually kept integral in the mainstream large language model (LLM) fine-tuning protocols. No works have questioned whether maintaining the integrity of the model is indispensable for performance. In this work, we introduce Mask Fine-Tuning (MFT), a brand-new LLM fine-tuning paradigm to show that properly breaking the integrity of the model can surprisingly lead to improved performance. Specifically, MFT learns a set of binary masks supervised by the typical LLM fine-tuning objective. Extensive experiments show that MFT gains a consistent performance boost across various domains and backbones (e.g., 1.95%/1.88% average gain in coding with LLaMA2-7B/3.1-8B). Detailed procedures are provided to study the proposed MFT from different hyperparameter perspectives for better insight. In particular, MFT naturally updates the current LLM training protocol by deploying it on a complete well-trained model. This study extends the functionality of mask learning from its conventional network pruning context for model compression to a more general scope.
- Abstract(参考訳): このモデルは、通常、メインストリームの大規模言語モデル(LLM)の微調整プロトコルに不可欠なものとなっている。
モデルの完全性を維持することがパフォーマンスに欠かせないかどうかについては、まだ疑問が持たれている。
本研究では,新しいLLMファインチューニングパラダイムであるMask Fine-Tuning(MFT)を導入し,モデルの整合性を適切に破壊することで,驚くほど性能が向上することを示す。
具体的には、MFTは典型的なLLM微調整目的によって制御されるバイナリマスクの集合を学習する。
大規模な実験により、MFTは様々なドメインやバックボーンで一貫したパフォーマンス向上(例えば、LLaMA2-7B/3.1-8Bでのコーディングでは1.95%/1.88%の平均ゲイン)を示す。
提案したMDTを異なるハイパーパラメータの観点から研究し、より良い洞察を得るための詳細な手順が提供される。
特に、MFTは、完全に訓練されたモデルにデプロイすることで、現在のLLMトレーニングプロトコルを自然に更新する。
本研究は,モデル圧縮のための従来のネットワークプルーニングコンテキストから,より汎用的なスコープまで,マスク学習の機能を拡張する。
関連論文リスト
- R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。