Fugu-MT 論文翻訳(概要): Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models

論文の概要: Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2310.12818v1
Date: Thu, 19 Oct 2023 15:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 14:33:32.870009
Title: Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models
Title（参考訳）: 推論効率の向上:パラメータ共有事前学習言語モデルのパワーを解き放つ
Authors: Weize Chen, Xiaoyue Xu, Xu Han, Yankai Lin, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou
Abstract要約: 本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
参考スコア（独自算出の注目度）: 109.06052781040916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-shared pre-trained language models (PLMs) have emerged as a successful approach in resource-constrained environments, enabling substantial reductions in model storage and memory costs without significant performance compromise. However, it is important to note that parameter sharing does not alleviate computational burdens associated with inference, thus impeding its practicality in situations characterized by limited stringent latency requirements or computational resources. Building upon neural ordinary differential equations (ODEs), we introduce a straightforward technique to enhance the inference efficiency of parameter-shared PLMs. Additionally, we propose a simple pre-training technique that leads to fully or partially shared models capable of achieving even greater inference acceleration. The experimental results demonstrate the effectiveness of our methods on both autoregressive and autoencoding PLMs, providing novel insights into more efficient utilization of parameter-shared models in resource-constrained settings.
Abstract（参考訳）: パラメータ共有事前学習言語モデル(PLM)は、資源制約のある環境で成功し、大幅な性能の妥協なしにモデルストレージとメモリコストを大幅に削減できる。しかし,パラメータ共有は推論に伴う計算負担を軽減するものではなく,限られた待ち時間要件や計算資源によって特徴づけられる状況において,その実用性が阻害されることに注意する必要がある。ニューラル常微分方程式(ODE)に基づいて,パラメータ共有PLMの推論効率を高めるための簡単な手法を導入する。さらに、より大きな推論加速を達成することができる完全あるいは部分的に共有されたモデルに導く、簡単な事前学習手法を提案する。実験により,提案手法が自己回帰的かつ自己エンコード的PLMに対して有効であることを示し,資源制約設定におけるパラメータ共有モデルのより効率的な利用に関する新たな知見を提供する。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。 LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。既存のアプローチ、例えば、コンテキスト内学習や。 PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文参考訳（メタデータ） (2025-05-25T11:54:23Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文参考訳（メタデータ） (2024-10-03T02:12:03Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文参考訳（メタデータ） (2024-06-06T14:29:49Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models [7.926974917872204]
LoRA-SPはランダム化半選択パラメータ凍結を利用した新しい手法である。 LoRA-SPは、モデル性能を損なうことなく、計算とメモリの要求を大幅に削減する。
論文参考訳（メタデータ） (2024-02-28T06:50:10Z)
Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文参考訳（メタデータ） (2024-01-26T21:51:49Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。