Fugu-MT 論文翻訳(概要): Arbitrary Few Parameters are Good Enough for Adapting Large-scale Pre-trained Language Models

論文の概要: Arbitrary Few Parameters are Good Enough for Adapting Large-scale Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2306.02320v1
Date: Sun, 4 Jun 2023 10:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 18:37:39.568322
Title: Arbitrary Few Parameters are Good Enough for Adapting Large-scale Pre-trained Language Models
Title（参考訳）: 任意パラメータは大規模事前学習言語モデルに適応するのに十分である
Authors: Yusheng Su, Chi-Min Chan, Jiali Cheng, Yujia Qin, Yankai Lin, Shengding Hu, Zonghan Yang, Ning Ding, Zhiyuan Liu, Maosong Sun
Abstract要約: 任意のモジュール構造やトレーニング可能なパラメータの数と互換性を持つ、より柔軟なPET法(任意のPET(APET)法)を導入する。モデルスケーリングは,任意のモジュール構造がチューニング手法の性能に与える影響を緩和する。また、PLMを駆動するためには、全てのチューニング手法がほぼ同じ数のトレーニング可能なパラメータを必要とすることも観察した。
参考スコア（独自算出の注目度）: 85.96896995094832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient tuning (PET) methods can effectively drive extremely large pre-trained language models (PLMs) by only training minimal parameters. Different PET methods utilize different manually designed modules. In a small PLM, there are usually noticeable performance differences among PET methods. Nevertheless, when a PLM's scale grows up to tens of billions of parameters, all PET methods achieve almost the same performance and even perform on par with the full-parameter fine-tuning method. Hence, we hypothesize that model scaling can mitigate the design differences (the module structures and the number of trainable parameters) among PET methods. To study this hypothesis, we introduce a more flexible PET method - arbitrary PET (APET) method - to be compatible with arbitrary module structures and any number of trainable parameters. Then, we experiment on $11$ NLP tasks of $5$ types and $2$ representative PLMs. From our investigations, we find that the model scaling (1) mitigates the effects of the arbitrary module structure on the performance of tuning methods, and (2) enables the tuning methods to optimize fewer parameters to achieve the full-parameter fine-tuning performance. Intriguingly, we also observe that all tuning methods require almost the same number of trainable parameters to drive PLMs. We discuss this phenomenon and the above two findings collectively from optimization perspectives to fathom the mechanisms behind them. These conclusions not only demonstrate the positive impact of model scaling on tuning methods but disclose its mechanisms, which help us design more effective and efficient tuning methods on larger-scale PLMs.
Abstract（参考訳）: パラメータ効率チューニング(PET)法は、最小パラメータのみを訓練することで、非常に大きな事前学習言語モデル(PLM)を効果的に駆動することができる。異なるPET法は異なる手動設計モジュールを利用する。小型PLMでは、PET法には通常顕著な性能差がある。それでも、PLMのスケールが数千億のパラメータまで大きくなると、すべてのPET法はほぼ同じ性能を達成し、フルパラメータの微調整法と同等の性能を発揮する。したがって,モデルスケーリングはPET法における設計の違い(モジュール構造とトレーニング可能なパラメータの数)を軽減することができると仮定する。この仮説を検討するために、任意のモジュール構造やトレーニング可能なパラメータの数に適合する、より柔軟なPET法、任意のPET法(APET)を導入する。次に、11ドルのNLPタスクを5ドルのタイプと2ドルの代表的PLMで実験する。本研究から,モデルスケーリング(1)は,任意のモジュール構造がチューニング手法の性能に与える影響を緩和し,(2)より少ないパラメータを最適化し,フルパラメータの微調整性能を実現する。興味深いことに、全てのチューニング手法はPLMを動かすのにほぼ同じ数のトレーニング可能なパラメータを必要とする。本稿では,この現象と,それらの背後にあるメカニズムを太くする最適化の観点から,上記の2つの知見をまとめて論じる。これらの結論は、モデルスケーリングがチューニング方法に与える影響を実証するだけでなく、そのメカニズムを開示し、大規模PLM上でより効率的かつ効率的なチューニング手法を設計するのに役立つ。

関連論文リスト

Faster Parameter-Efficient Tuning with Token Redundancy Reduction [38.47377525427411]
遅延効率チューニング(PET)は、少数のパラメータを学習することで、事前訓練された基礎モデルを下流タスクに転送することを目的としている。 PETは、訓練済みのモデル容量が指数関数的に増加するにも拘わらず、各タスクのストレージと転送コストを著しく削減する。ほとんどのPET法は、大きなバックボーンモデルの推論を継承し、しばしば計算オーバーヘッドを増大させる。
論文参考訳（メタデータ） (2025-03-26T07:15:08Z)
UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification [32.3387409534726]
本研究では,大規模事前学習型SSL音声モデルの話者検証課題に対するパラメータ効率調整法について検討した。 i)アダプタチューニング法,(ii)プロンプトチューニング法,および(iii)動的に学習可能なゲーティング機構でアダプタチューニングとプロンプトチューニングを効果的に組み込んだ統合フレームワークの3つのPET手法を提案する。提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
論文参考訳（メタデータ） (2025-01-27T22:26:37Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文参考訳（メタデータ） (2024-11-13T13:53:10Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。 LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文参考訳（メタデータ） (2024-02-27T04:18:49Z)
ConPET: Continual Parameter-Efficient Tuning for Large Language Models [65.48107393731861]
継続的な学習には、新しいタスクへのモデルの継続的な適応が必要である。継続性を提案する。効率的なチューニング(ConPET) - 一般化可能なパラダイム。大規模言語モデルの連続的なタスク適応。
論文参考訳（メタデータ） (2023-09-26T08:52:04Z)
KronA: Parameter Efficient Tuning with Kronecker Adapter [17.175408603709712]
我々は、Kronecker製品ベースのアダプタモジュールであるKronAを導入し、TransformerベースのPLMを効率的に微調整する。提案手法をGLUEベンチマークに応用し, Kronecker をベースとしたモジュールを組み込むことで, 最先端の PET 手法より優れていることを示す。
論文参考訳（メタデータ） (2022-12-20T20:56:52Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)
Sparse Structure Search for Parameter-Efficient Tuning [85.49094523664428]
S$3$PETは、トレーニング可能なパラメータの少ない手動およびランダムな構造を超えることを示す。探索された構造は、0.01%のトレーニング可能なパラメータで99%以上の微調整性能を維持している。
論文参考訳（メタデータ） (2022-06-15T08:45:21Z)
Revisiting Parameter-Efficient Tuning: Are We Really There Yet? [33.13293845589329]
PETuning法はファインタニングと同等かそれ以上のパフォーマンスを達成したと主張している。本研究はPETuning法について,PETuning法の訓練と評価に関する総合的研究を行い,PETuning法を再検討するものである。
論文参考訳（メタデータ） (2022-02-16T10:11:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。