Fugu-MT 論文翻訳(概要): MicroNet for Efficient Language Modeling

論文の概要: MicroNet for Efficient Language Modeling

arxiv url: http://arxiv.org/abs/2005.07877v1
Date: Sat, 16 May 2020 05:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 12:49:44.184680
Title: MicroNet for Efficient Language Modeling
Title（参考訳）: 効率的な言語モデリングのためのMicroNet
Authors: Zhongxia Yan, Hanrui Wang, Demi Guo, Song Han
Abstract要約: 言語モデリングトラックにおけるNeurIPS 2019 MicroNet Challengeの勝利のソリューションを提供します。ベースライン言語モデルと比較して、我々のモデルはパラメータ効率が90倍、計算効率が36倍である。
参考スコア（独自算出の注目度）: 21.377253658979487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is important to design compact language models for efficient deployment. We improve upon recent advances in both the language modeling domain and the model-compression domain to construct parameter and computation efficient language models. We use an efficient transformer-based architecture with adaptive embedding and softmax, differentiable non-parametric cache, Hebbian softmax, knowledge distillation, network pruning, and low-bit quantization. In this paper, we provide the winning solution to the NeurIPS 2019 MicroNet Challenge in the language modeling track. Compared to the baseline language model provided by the MicroNet Challenge, our model is 90 times more parameter-efficient and 36 times more computation-efficient while achieving the required test perplexity of 35 on the Wikitext-103 dataset. We hope that this work will aid future research into efficient language models, and we have released our full source code at https://github.com/mit-han-lab/neurips-micronet.
Abstract（参考訳）: 効率的なデプロイメントのためのコンパクト言語モデルを設計することが重要である。パラメータと計算効率のよい言語モデルを構築するため、言語モデリングドメインとモデル圧縮ドメインの両方の最近の進歩を改善した。我々は,適応埋め込みとソフトマックス,微分可能な非パラメトリックキャッシュ,ヘビアンソフトマックス,知識蒸留,ネットワークプルーニング,低ビット量子化を備えた効率的なトランスフォーマーアーキテクチャを用いる。本稿では,言語モデリングトラックにおけるNeurIPS 2019 MicroNet Challengeの優勝ソリューションを提供する。 MicroNet Challengeが提供するベースライン言語モデルと比較して、我々のモデルはパラメータ効率の90倍、計算効率の36倍であり、Wikitext-103データセット上で必要なテストパープレキシティは35である。この研究が効率的な言語モデルの研究に役立つことを期待しており、私たちはhttps://github.com/mit-han-lab/neurips-micronet.comでソースコードをリリースした。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文参考訳（メタデータ） (2024-03-07T16:52:49Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文参考訳（メタデータ） (2023-03-21T14:12:08Z)
Efficiently Upgrading Multilingual Machine Translation Models to Support More Languages [18.633630899562704]
マルチリンガル機械翻訳(MMT)モデルは、サイズとサポート言語の数が増え続けている。データがより多くの言語で利用可能になるにつれて、計算を節約するために既存のモデルを再利用し、アップグレードするのは自然なことです。しかし、新しい言語を追加するには、埋め込みの再利用を複雑にする語彙を更新する必要がある。我々は,新しい言語を効果的に学習し,破滅的な忘れを和らげる3つの手法を導入する。
論文参考訳（メタデータ） (2023-02-07T15:20:13Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Internet-augmented language models through few-shot prompting for open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。 Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文参考訳（メタデータ） (2022-03-10T02:24:14Z)
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。 GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。 GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文参考訳（メタデータ） (2021-12-13T18:58:19Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文参考訳（メタデータ） (2021-04-08T02:18:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。