論文の概要: A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
- arxiv url: http://arxiv.org/abs/2410.13841v1
- Date: Thu, 17 Oct 2024 17:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:32.386511
- Title: A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
- Title(参考訳): 訓練後大規模モデルにおけるデルタパラメータ編集の統一的視点
- Authors: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun,
- Abstract要約: ポストトレーニングは、様々なタスクに大規模な事前訓練モデルを適用するための重要なパラダイムとして現れている。
本稿では,DARE や BitDelta などの既存手法を拡張して,訓練後モデルにおけるデルタパラメータ編集の適用性と有効性を高める。
- 参考スコア(独自算出の注目度): 45.82689769685688
- License:
- Abstract: Post-training has emerged as a crucial paradigm for adapting large-scale pre-trained models to various tasks, whose effects are fully reflected by delta parameters (i.e., the disparity between post-trained and pre-trained parameters). While numerous studies have explored delta parameter properties via operations like pruning, quantization, low-rank approximation, and extrapolation, a unified framework for systematically examining these characteristics has been lacking. In this paper, we propose a novel perspective based on Riemann sum approximation of the loss function to elucidate delta parameter editing operations. Our analysis categorizes existing methods into three classes based on their post-editing performance: competitive, decreased, and improved, explaining how they are expressed by the Riemann sum approximation term and how they alter the model performance. Extensive experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2, and Mistral, corroborate our theoretical findings. Furthermore, we introduce extensions to existing techniques like DARE and BitDelta, highlighting their limitations in leveraging the properties of delta parameters and reorganizing them into general expressions to enhance the applicability and effectiveness of delta parameter editing in post-trained models.
- Abstract(参考訳): ポストトレーニングは、大規模事前訓練されたモデルを様々なタスクに適用するための重要なパラダイムとして現れており、その影響はデルタパラメータ(ポストトレーニングされたパラメータと事前訓練されたパラメータの相違)によって完全に反映されている。
多くの研究がプルーニング、量子化、低ランク近似、外挿といった操作を通じてデルタパラメータ特性を探索してきたが、これらの特性を体系的に研究するための統一的な枠組みは欠如している。
本稿では,損失関数のリーマン和近似に基づく新しい視点を提案し,デルタパラメータの編集操作を解明する。
本分析では,既存の手法を,競争力,減少,改善の3つのクラスに分類し,リーマン和近似項でどのように表現されるか,モデル性能をどう変えるかを説明する。
ViT, LLaMA 3, Qwen 2, Mistralなど, 視覚モデルと言語モデルの両方に対する広範な実験は, 我々の理論的知見を裏付けるものである。
さらに,DARE や BitDelta などの既存手法の拡張も導入し,デルタパラメータの特性を活用して一般表現に再編成することで,ポストトレーニングモデルにおけるデルタパラメータ編集の適用性と有効性を高めることの限界を強調した。
関連論文リスト
- Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Self-supervised Pretraining for Partial Differential Equations [0.0]
本稿では、トランスフォーマーに基づくニューラルネットワークアーキテクチャの最近の進歩を活用し、ニューラルPDEソルバを構築するための新しいアプローチについて述べる。
我々のモデルは、ネットワークを再トレーニングすることなく、PDEパラメータの異なる値に対するソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-07-03T16:39:32Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。