論文の概要: YUAN 2.0: A Large Language Model with Localized Filtering-based
Attention
- arxiv url: http://arxiv.org/abs/2311.15786v4
- Date: Mon, 18 Dec 2023 08:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:35:33.461301
- Title: YUAN 2.0: A Large Language Model with Localized Filtering-based
Attention
- Title(参考訳): YUAN 2.0: ローカライズされたフィルタリングベースの注意を伴う大規模言語モデル
- Authors: Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li, Xi
Chen, Bing Zhao, Wei Wang, Tong Yu, Rongguo Zhang, Jiahua Zhang, Chao Wang
- Abstract要約: 我々は210億から102.6億までのパラメータを持つ一連の大規模言語モデルであるYuan 2.0を開発しリリースする。
局所フィルタリングに基づく注意(LFA)は、自然言語の局所的な依存関係に関する事前の知識を注意に組み込むために導入された。
YUAN 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて印象的な能力を示している。
- 参考スコア(独自算出の注目度): 29.296188795051645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we develop and release Yuan 2.0, a series of large language
models with parameters ranging from 2.1 billion to 102.6 billion. The Localized
Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of
local dependencies of natural language into Attention. A data filtering and
generating system is presented to build pre-training and fine-tuning dataset in
high quality. A distributed training method with non-uniform pipeline parallel,
data parallel, and optimizer parallel is proposed, which greatly reduces the
bandwidth requirements of intra-node communication, and achieves good
performance in large-scale distributed training. Yuan 2.0 models display
impressive ability in code generation, math problem-solving, and chatting
compared with existing models. The latest version of YUAN 2.0, including model
weights and source code, is accessible at Github.
- Abstract(参考訳): 本研究では,210億から1026億のパラメータを持つ,一連の大規模言語モデルである yuan 2.0 の開発とリリースを行う。
局所フィルタリングに基づく注意(LFA)は、自然言語の局所的な依存関係に関する事前の知識を注意に組み込むために導入された。
事前学習および微調整データセットを高品質で構築するために,データフィルタリングおよび生成システムを提案する。
非一様パイプライン並列,データ並列,オプティマイザ並列の分散トレーニング手法を提案し,ノード間通信の帯域幅要求を大幅に低減し,大規模分散トレーニングにおいて優れた性能を実現する。
Yuan 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて素晴らしい能力を示している。
モデルウェイトとソースコードを含むYUAN 2.0の最新バージョンはGithubで公開されている。
関連論文リスト
- Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and
Few-Shot Learning [18.932100477957462]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。
本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T07:40:22Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。