論文の概要: Improving generalization in large language models by learning prefix
subspaces
- arxiv url: http://arxiv.org/abs/2310.15793v1
- Date: Tue, 24 Oct 2023 12:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:50:54.256602
- Title: Improving generalization in large language models by learning prefix
subspaces
- Title(参考訳): プレフィックス部分空間学習による大規模言語モデルの一般化
- Authors: Louis Falissard, Vincent Guigue, Laure Soulier
- Abstract要約: 本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 5.911540700785975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article focuses on large language models (LLMs) fine-tuning in the
scarce data regime (also known as the "few-shot" learning setting). We propose
a method to increase the generalization capabilities of LLMs based on neural
network subspaces. This optimization method, recently introduced in computer
vision, aims to improve model generalization by identifying wider local optima
through the joint optimization of an entire simplex of models in parameter
space. Its adaptation to massive, pretrained transformers, however, poses some
challenges. First, their considerable number of parameters makes it difficult
to train several models jointly, and second, their deterministic parameter
initialization schemes make them unfit for the subspace method as originally
proposed. We show in this paper that "Parameter Efficient Fine-Tuning" (PEFT)
methods, however, are perfectly compatible with this original approach, and
propose to learn entire simplex of continuous prefixes. We test our method on a
variant of the GLUE benchmark adapted to the few-shot learning setting, and
show that both our contributions jointly lead to a gain in average performances
compared to sota methods. The implementation can be found at the following
link: https://github.com/Liloulou/prefix_subspace
- Abstract(参考訳): この記事では、不足データレジーム("few-shot"学習設定としても知られる)における、大言語モデル(llms)の微調整に焦点を当てます。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
近年,コンピュータビジョンで導入されたこの最適化手法は,パラメータ空間におけるモデル全体の結合最適化を通じて,より広い局所最適化を同定することにより,モデル一般化を改善することを目的としている。
しかし、大規模で事前訓練されたトランスフォーマーへの適応は、いくつかの課題を引き起こす。
第一に、それらのパラメータの数によって複数のモデルの訓練が難しくなっており、第二に、決定論的パラメータの初期化スキームは、当初提案された部分空間法に不適当である。
本稿では,Parameter Efficient Fine-Tuning(PEFT)法が従来の手法と完全に互換性があることを示し,連続接頭辞の単純さを学習することを提案する。
本手法は,数ショットの学習環境に適応したGLUEベンチマークの変種を用いて試行し,両コントリビューションが相多手法と比較して平均性能の向上につながることを示す。
実装は以下のリンクで確認できる。 https://github.com/Liloulou/prefix_subspace
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。
従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。
本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文 参考訳(メタデータ) (2024-11-13T13:53:10Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Improving Hyperparameter Optimization with Checkpointed Model Weights [16.509585437768063]
本研究では,トレーニングした重みのログ化されたチェックポイントを用いたニューラルネットワークのためのHPO法を提案する。
我々の手法である予測モデル探索(FMS)は、重みをガウス過程のディープカーネルサロゲートモデルに埋め込む。
論文 参考訳(メタデータ) (2024-06-26T17:59:54Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。