論文の概要: Merino: Entropy-driven Design for Generative Language Models on IoT Devices
- arxiv url: http://arxiv.org/abs/2403.07921v1
- Date: Wed, 28 Feb 2024 03:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 05:50:41.752448
- Title: Merino: Entropy-driven Design for Generative Language Models on IoT Devices
- Title(参考訳): Merino: IoTデバイス上の生成言語モデルのためのエントロピー駆動設計
- Authors: Youpeng Zhao, Ming Lin, Huadong Tang, Qiang Wu, Jun Wang,
- Abstract要約: モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。
我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,最先端の自己回帰変換モデルと競合する性能を示した。
- 参考スコア(独自算出の注目度): 17.319634176922804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models (LLMs) stand as a revolutionary advancement in the modern era of artificial intelligence (AI). However, directly deploying LLMs in resource-constrained hardware, such as Internet-of-Things (IoT) devices, is difficult due to their high computational cost. In this paper, we propose a novel information-entropy framework for designing mobile-friendly generative language models. Our key design paradigm is to maximize the entropy of transformer decoders within the given computational budgets. The whole design procedure involves solving a mathematical programming (MP) problem, which can be done on the CPU within minutes, making it nearly zero-cost. We evaluate our designed models, termed MeRino, across nine NLP downstream tasks, showing their competitive performance against the state-of-the-art autoregressive transformer models under the mobile setting. Notably, MeRino achieves similar or better zero performance compared to the 350M parameter OPT while being 4.9x faster on NVIDIA Jetson Nano with 5.5x reduction in model size. Code will be made available soon.
- Abstract(参考訳): ジェネレーティブ・大型言語モデル(LLMs)は、現代人工知能(AI)における革命的な進歩である。
しかし,インターネット・オブ・シング(IoT)デバイスなどのリソース制約のあるハードウェアにLSMを直接デプロイすることは,計算コストが高いため困難である。
本稿では,モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。
設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。
我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。
特に、MeRino は 350M のパラメータ OPT と同じような、あるいはより良いゼロ性能を達成し、NVIDIA Jetson Nano では 5.5 倍のモデルサイズで 4.9 倍高速である。
コードはまもなく利用可能になる。
関連論文リスト
- The Ingredients for Robotic Diffusion Transformers [47.61690903645525]
我々は,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。
結果として得られるモデルは、複数のロボットエンボディメント上の多様なタスクを効率的に解決することができる。
当社のポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実証データを用いた10時間トレーニングによるスケーリング性能の向上を示す。
論文 参考訳(メタデータ) (2024-10-14T02:02:54Z) - On-device AI: Quantization-aware Training of Transformers in Time-Series [0.0]
Transformerモデルは、これらのAIモデルの中で最も魅力的だ。
私の研究は、時系列予測タスクのためのTransformerモデルを最適化することに焦点を当てています。
最適化されたモデルは、組み込みフィールドプログラマブルゲートアレイ(FPGA)上にハードウェアアクセラレータとしてデプロイされる。
論文 参考訳(メタデータ) (2024-08-29T12:49:22Z) - Hardware-Efficient EMG Decoding for Next-Generation Hand Prostheses [3.0483490999157605]
現在の商用のロボット義手(RPH)は、基本的なオン/オフコマンドによる限定的な制御を提供する。
機械学習の最近の進歩は、より高い自由度で指の動きを復号できる。
本稿では,次世代携帯型RPHのオンチップ動作復号化を実現するために,新たなアトラクタベースニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T13:38:28Z) - LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - End-to-end AI framework for interpretable prediction of molecular and
crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。
これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文 参考訳(メタデータ) (2022-12-21T19:27:51Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。