論文の概要: Improving generalization in large language models by learning prefix
subspaces
- arxiv url: http://arxiv.org/abs/2310.15793v1
- Date: Tue, 24 Oct 2023 12:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:50:54.256602
- Title: Improving generalization in large language models by learning prefix
subspaces
- Title(参考訳): プレフィックス部分空間学習による大規模言語モデルの一般化
- Authors: Louis Falissard, Vincent Guigue, Laure Soulier
- Abstract要約: 本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 5.911540700785975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article focuses on large language models (LLMs) fine-tuning in the
scarce data regime (also known as the "few-shot" learning setting). We propose
a method to increase the generalization capabilities of LLMs based on neural
network subspaces. This optimization method, recently introduced in computer
vision, aims to improve model generalization by identifying wider local optima
through the joint optimization of an entire simplex of models in parameter
space. Its adaptation to massive, pretrained transformers, however, poses some
challenges. First, their considerable number of parameters makes it difficult
to train several models jointly, and second, their deterministic parameter
initialization schemes make them unfit for the subspace method as originally
proposed. We show in this paper that "Parameter Efficient Fine-Tuning" (PEFT)
methods, however, are perfectly compatible with this original approach, and
propose to learn entire simplex of continuous prefixes. We test our method on a
variant of the GLUE benchmark adapted to the few-shot learning setting, and
show that both our contributions jointly lead to a gain in average performances
compared to sota methods. The implementation can be found at the following
link: https://github.com/Liloulou/prefix_subspace
- Abstract(参考訳): この記事では、不足データレジーム("few-shot"学習設定としても知られる)における、大言語モデル(llms)の微調整に焦点を当てます。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
近年,コンピュータビジョンで導入されたこの最適化手法は,パラメータ空間におけるモデル全体の結合最適化を通じて,より広い局所最適化を同定することにより,モデル一般化を改善することを目的としている。
しかし、大規模で事前訓練されたトランスフォーマーへの適応は、いくつかの課題を引き起こす。
第一に、それらのパラメータの数によって複数のモデルの訓練が難しくなっており、第二に、決定論的パラメータの初期化スキームは、当初提案された部分空間法に不適当である。
本稿では,Parameter Efficient Fine-Tuning(PEFT)法が従来の手法と完全に互換性があることを示し,連続接頭辞の単純さを学習することを提案する。
本手法は,数ショットの学習環境に適応したGLUEベンチマークの変種を用いて試行し,両コントリビューションが相多手法と比較して平均性能の向上につながることを示す。
実装は以下のリンクで確認できる。 https://github.com/Liloulou/prefix_subspace
関連論文リスト
- Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Towards Universal Sequence Representation Learning for Recommender
Systems [98.02154164251846]
我々はUniSRecという新しいユニバーサルシーケンス表現学習手法を提案する。
提案手法は、項目の関連記述テキストを用いて、異なる推薦シナリオ間で転送可能な表現を学習する。
我々のアプローチは、パラメータ効率のよい方法で、新しいレコメンデーションドメインやプラットフォームに効果的に移行できます。
論文 参考訳(メタデータ) (2022-06-13T07:21:56Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - A Primal-Dual Subgradient Approachfor Fair Meta Learning [23.65344558042896]
ショットのメタ学習は、その高速適応能力と、未知のタスクへの精度の一般化で有名である。
そこで本研究では,ごく少数の例を用いて,公正な機械学習モデルのトレーニングを学習するPrimal-Dual Meta-learningフレームワーク,すなわちPDFMを提案する。
論文 参考訳(メタデータ) (2020-09-26T19:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。