Fugu-MT 論文翻訳(概要): Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture

論文の概要: Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture

arxiv url: http://arxiv.org/abs/2303.16753v2
Date: Tue, 11 Apr 2023 02:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 17:41:58.907492
Title: Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture
Title（参考訳）: パラメータ効率アーキテクチャによる事前学習型言語モデルのスケーリング
Authors: Peiyu Liu, Ze-Feng Gao, Yushuo Chen, Wayne Xin Zhao, Ji-Rong Wen
Abstract要約: 行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
参考スコア（独自算出の注目度）: 68.13678918660872
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In this paper, we propose a highly parameter-efficient approach to scaling pre-trained language models (PLMs) to a deeper model depth. Unlike prior work that shares all parameters or uses extra blocks, we design a more capable parameter-sharing architecture based on matrix product operator (MPO). MPO decomposition can reorganize and factorize the information of a parameter matrix into two parts: the major part that contains the major information (central tensor) and the supplementary part that only has a small proportion of parameters (auxiliary tensors). Based on such a decomposition, our architecture shares the central tensor across all layers for reducing the model size and meanwhile keeps layer-specific auxiliary tensors (also using adapters) for enhancing the adaptation flexibility. To improve the model training, we further propose a stable initialization algorithm tailored for the MPO-based architecture. Extensive experiments have demonstrated the effectiveness of our proposed model in reducing the model size and achieving highly competitive performance.
Abstract（参考訳）: 本稿では,事前学習言語モデル(PLM)をより深いモデル深度に拡張するための,パラメータ効率の高い手法を提案する。全てのパラメータを共有したり余分なブロックを使う以前の作業とは異なり、行列積演算子(MPO)に基づいたより有能なパラメータ共有アーキテクチャを設計する。 mpo分解は、パラメータ行列の情報を2つの部分に分けて再編成し分解することができる: 主要な情報(中央テンソル)を含む主要部分と、パラメータ(副テンソル)の少ない部分(副テンソル)である。このような分解に基づいて、我々のアーキテクチャはモデルサイズを縮小する中央テンソルを共有し、一方、適応性を高めるために層固有の補助テンソル(アダプタも使用)を保持する。モデルトレーニングを改善するために,MPOアーキテクチャに適した安定初期化アルゴリズムを提案する。大規模実験により,提案モデルの有効性が実証され,性能が向上した。

関連論文リスト

Self-Supervised Weight Templates for Scalable Vision Model Initialization [34.75805112986586]
SWEETは、視覚タスクのスケーラブルな初期化を可能にするために制約ベースの事前トレーニングを実行する、自己教師型フレームワークである。そこで我々は,テンプレートを幅関係の次元に沿って規則化し,頑健な幅幅の表現を奨励するワイドワイドスケーリングを導入する。 SWEETの最先端性能を示すテキスト分類、テキスト分割、テキスト生成に関する実験。
論文参考訳（メタデータ） (2026-01-27T15:15:17Z)
High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
NoiseFormer -- Noise Diffused Symmetric Attention Transformer [0.0]
本稿では,モデルの性能を向上させるため,ノイズ拡散対称アテンション変換器という新しい統一モデルアーキテクチャを提案する。提案モデルはGPT2ベースモデルに基づいて検証され,その結果は平滑なSymmetric attentionとGPT2ベースモデルの間の性能向上を反映する。
論文参考訳（メタデータ） (2026-01-10T14:10:48Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文参考訳（メタデータ） (2024-11-10T12:40:59Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文参考訳（メタデータ） (2024-06-06T14:29:49Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)
Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators [31.461762905053426]
本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
論文参考訳（メタデータ） (2021-06-04T01:50:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。