論文の概要: PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation
- arxiv url: http://arxiv.org/abs/2312.17276v1
- Date: Wed, 27 Dec 2023 11:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:38:45.162485
- Title: PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation
- Title(参考訳): PanGu-$\pi$: 非線形性補償による言語モデルアーキテクチャの強化
- Authors: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie,
Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu,
Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao
Xu, Dacheng Tao
- Abstract要約: 大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
- 参考スコア(独自算出の注目度): 97.78045712375047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent trend of large language models (LLMs) is to increase the scale of
both model size (\aka the number of parameters) and dataset to achieve better
generative ability, which is definitely proved by a lot of work such as the
famous GPT and Llama. However, large models often involve massive computational
costs, and practical applications cannot afford such high prices. However, the
method of constructing a strong model architecture for LLMs is rarely
discussed. We first analyze the state-of-the-art language model architectures
and observe the feature collapse problem. Based on the theoretical analysis, we
propose that the nonlinearity is also very important for language models, which
is usually studied in convolutional neural networks for vision tasks. The
series informed activation function is then introduced with tiny calculations
that can be ignored, and an augmented shortcut is further used to enhance the
model nonlinearity. We then demonstrate that the proposed approach is
significantly effective for enhancing the model nonlinearity through carefully
designed ablations; thus, we present a new efficient model architecture for
establishing modern, namely, PanGu-$\pi$. Experiments are then conducted using
the same dataset and training strategy to compare PanGu-$\pi$ with
state-of-the-art LLMs. The results show that PanGu-$\pi$-7B can achieve a
comparable performance to that of benchmarks with about 10\% inference
speed-up, and PanGu-$\pi$-1B can achieve state-of-the-art performance in terms
of accuracy and efficiency. In addition, we have deployed PanGu-$\pi$-7B in the
high-value domains of finance and law, developing an LLM named YunShan for
practical application. The results show that YunShan can surpass other models
with similar scales on benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLMs)の最近のトレンドは、モデルサイズ(パラメータの数)とデータセットの両方のスケールを拡大して、より優れた生成能力を実現することである。
しかし、大規模なモデルは計算コストが大きすぎることが多く、実用的な用途ではそのような高額な価格が得られない。
しかし、LLMのための強力なモデルアーキテクチャを構築する方法はめったに論じられていない。
まず,最先端言語モデルアーキテクチャを分析し,機能崩壊問題を観察した。
理論的解析に基づいて,視覚タスクのための畳み込みニューラルネットワークで研究される言語モデルにおいても,非線形性が極めて重要であることを示唆する。
一連の情報伝達活性化関数は無視可能な小さな計算で導入され、モデル非線形性を高めるために拡張ショートカットがさらに使用される。
提案手法は, モデル非線形性の向上に極めて有効であることを示し, 近代的, すなわち PanGu-$\pi$ を確立するために, より効率的なモデルアーキテクチャを提案する。
次に同じデータセットとトレーニング戦略を使用して実験を行い、PanGu-$\pi$と最先端のLLMを比較する。
その結果,PanGu-$\pi$-7Bは推定速度が約10\%のベンチマークに匹敵する性能を達成でき,PanGu-$\pi$-1Bは精度と効率で最先端のパフォーマンスを達成できることがわかった。
さらに,PanGu-$\pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
結果は、YunShanがベンチマークで同様のスケールで他のモデルを上回ることができることを示している。
関連論文リスト
- Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Rethinking Optimization and Architecture for Tiny Language Models [39.892066839422796]
モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文 参考訳(メタデータ) (2024-02-05T07:59:38Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Graph-Regularized Tensor Regression: A Domain-Aware Framework for
Interpretable Multi-Way Financial Modelling [23.030263841031633]
そこで我々は,グラフラプラシアン行列の形で,相互関係に関する知識をモデルに組み込む新しいグラフ正規化回帰(GRTR)フレームワークを開発した。
テンソル代数(英語版)により、提案されたフレームワークは係数と次元の両方で完全に解釈可能であることが示されている。
GRTRモデルは、マルチウェイの財務予測設定で検証され、計算コストの削減による性能向上が示されている。
論文 参考訳(メタデータ) (2022-10-26T13:39:08Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。