論文の概要: Merino: Entropy-driven Design for Generative Language Models on IoT Devices
- arxiv url: http://arxiv.org/abs/2403.07921v1
- Date: Wed, 28 Feb 2024 03:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 05:50:41.752448
- Title: Merino: Entropy-driven Design for Generative Language Models on IoT Devices
- Title(参考訳): Merino: IoTデバイス上の生成言語モデルのためのエントロピー駆動設計
- Authors: Youpeng Zhao, Ming Lin, Huadong Tang, Qiang Wu, Jun Wang,
- Abstract要約: モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。
我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,最先端の自己回帰変換モデルと競合する性能を示した。
- 参考スコア(独自算出の注目度): 17.319634176922804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models (LLMs) stand as a revolutionary advancement in the modern era of artificial intelligence (AI). However, directly deploying LLMs in resource-constrained hardware, such as Internet-of-Things (IoT) devices, is difficult due to their high computational cost. In this paper, we propose a novel information-entropy framework for designing mobile-friendly generative language models. Our key design paradigm is to maximize the entropy of transformer decoders within the given computational budgets. The whole design procedure involves solving a mathematical programming (MP) problem, which can be done on the CPU within minutes, making it nearly zero-cost. We evaluate our designed models, termed MeRino, across nine NLP downstream tasks, showing their competitive performance against the state-of-the-art autoregressive transformer models under the mobile setting. Notably, MeRino achieves similar or better zero performance compared to the 350M parameter OPT while being 4.9x faster on NVIDIA Jetson Nano with 5.5x reduction in model size. Code will be made available soon.
- Abstract(参考訳): ジェネレーティブ・大型言語モデル(LLMs)は、現代人工知能(AI)における革命的な進歩である。
しかし,インターネット・オブ・シング(IoT)デバイスなどのリソース制約のあるハードウェアにLSMを直接デプロイすることは,計算コストが高いため困難である。
本稿では,モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。
設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。
我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。
特に、MeRino は 350M のパラメータ OPT と同じような、あるいはより良いゼロ性能を達成し、NVIDIA Jetson Nano では 5.5 倍のモデルサイズで 4.9 倍高速である。
コードはまもなく利用可能になる。
関連論文リスト
- Natural Language to Verilog: Design of a Recurrent Spiking Neural Network using Large Language Models and ChatGPT [0.08388591755871733]
我々はOpenAIのChatGPT4を用いて、プログラム可能な繰り返しスパイクニューラルネットワークのRTL Verilogモジュールを合成する。
得られた設計は、排他的OR、IRIS花分類、MNIST手書き桁分類の3つのケーススタディで検証され、96.6%の精度を達成した。
論文 参考訳(メタデータ) (2024-05-02T16:08:08Z) - PoseINN: Realtime Visual-based Pose Regression and Localization with Invertible Neural Networks [3.031375888004876]
カメラからエゴ位置を推定することは、モバイルロボティクスから拡張現実に至るまで、ロボット工学における重要な問題である。
本稿では,画像の潜在空間とシーンのポーズの間のマッピングを見つけるために,非可逆ニューラルネットワーク(INN)を用いてこの問題を解決することを提案する。
我々のモデルは、訓練が速く、低解像度合成データのオフラインレンダリングしか必要とせず、SOTAと同じような性能を実現している。
論文 参考訳(メタデータ) (2024-04-20T06:25:32Z) - LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - End-to-end AI framework for interpretable prediction of molecular and
crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。
これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文 参考訳(メタデータ) (2022-12-21T19:27:51Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。