Fugu-MT 論文翻訳(概要): Improving generalization in large language models by learning prefix subspaces

論文の概要: Improving generalization in large language models by learning prefix subspaces

arxiv url: http://arxiv.org/abs/2310.15793v1
Date: Tue, 24 Oct 2023 12:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 18:50:54.256602
Title: Improving generalization in large language models by learning prefix subspaces
Title（参考訳）: プレフィックス部分空間学習による大規模言語モデルの一般化
Authors: Louis Falissard, Vincent Guigue, Laure Soulier
Abstract要約: 本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
参考スコア（独自算出の注目度）: 5.911540700785975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This article focuses on large language models (LLMs) fine-tuning in the scarce data regime (also known as the "few-shot" learning setting). We propose a method to increase the generalization capabilities of LLMs based on neural network subspaces. This optimization method, recently introduced in computer vision, aims to improve model generalization by identifying wider local optima through the joint optimization of an entire simplex of models in parameter space. Its adaptation to massive, pretrained transformers, however, poses some challenges. First, their considerable number of parameters makes it difficult to train several models jointly, and second, their deterministic parameter initialization schemes make them unfit for the subspace method as originally proposed. We show in this paper that "Parameter Efficient Fine-Tuning" (PEFT) methods, however, are perfectly compatible with this original approach, and propose to learn entire simplex of continuous prefixes. We test our method on a variant of the GLUE benchmark adapted to the few-shot learning setting, and show that both our contributions jointly lead to a gain in average performances compared to sota methods. The implementation can be found at the following link: https://github.com/Liloulou/prefix_subspace
Abstract（参考訳）: この記事では、不足データレジーム("few-shot"学習設定としても知られる)における、大言語モデル(llms)の微調整に焦点を当てます。ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。近年,コンピュータビジョンで導入されたこの最適化手法は,パラメータ空間におけるモデル全体の結合最適化を通じて,より広い局所最適化を同定することにより,モデル一般化を改善することを目的としている。しかし、大規模で事前訓練されたトランスフォーマーへの適応は、いくつかの課題を引き起こす。第一に、それらのパラメータの数によって複数のモデルの訓練が難しくなっており、第二に、決定論的パラメータの初期化スキームは、当初提案された部分空間法に不適当である。本稿では,Parameter Efficient Fine-Tuning(PEFT)法が従来の手法と完全に互換性があることを示し,連続接頭辞の単純さを学習することを提案する。本手法は,数ショットの学習環境に適応したGLUEベンチマークの変種を用いて試行し,両コントリビューションが相多手法と比較して平均性能の向上につながることを示す。実装は以下のリンクで確認できる。 https://github.com/Liloulou/prefix_subspace

関連論文リスト

Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。 LLMの優先度最適化のために設計された新しいZOアルゴリズムZOPrOを紹介する。本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文参考訳（メタデータ） (2025-03-05T12:49:48Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文参考訳（メタデータ） (2024-11-13T13:53:10Z)
Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-05T05:19:09Z)
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%～30%の精度向上を実現した。
論文参考訳（メタデータ） (2024-10-05T17:22:39Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Improving Hyperparameter Optimization with Checkpointed Model Weights [16.509585437768063]
本研究では,トレーニングした重みのログ化されたチェックポイントを用いたニューラルネットワークのためのHPO法を提案する。我々の手法である予測モデル探索(FMS)は、重みをガウス過程のディープカーネルサロゲートモデルに埋め込む。
論文参考訳（メタデータ） (2024-06-26T17:59:54Z)
Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文参考訳（メタデータ） (2024-03-01T15:14:47Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。