Fugu-MT 論文翻訳(概要): Merino: Entropy-driven Design for Generative Language Models on IoT Devices

論文の概要: Merino: Entropy-driven Design for Generative Language Models on IoT Devices

arxiv url: http://arxiv.org/abs/2403.07921v1
Date: Wed, 28 Feb 2024 03:20:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 05:50:41.752448
Title: Merino: Entropy-driven Design for Generative Language Models on IoT Devices
Title（参考訳）: Merino: IoTデバイス上の生成言語モデルのためのエントロピー駆動設計
Authors: Youpeng Zhao, Ming Lin, Huadong Tang, Qiang Wu, Jun Wang,
Abstract要約: モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,最先端の自己回帰変換モデルと競合する性能を示した。
参考スコア（独自算出の注目度）: 17.319634176922804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Large Language Models (LLMs) stand as a revolutionary advancement in the modern era of artificial intelligence (AI). However, directly deploying LLMs in resource-constrained hardware, such as Internet-of-Things (IoT) devices, is difficult due to their high computational cost. In this paper, we propose a novel information-entropy framework for designing mobile-friendly generative language models. Our key design paradigm is to maximize the entropy of transformer decoders within the given computational budgets. The whole design procedure involves solving a mathematical programming (MP) problem, which can be done on the CPU within minutes, making it nearly zero-cost. We evaluate our designed models, termed MeRino, across nine NLP downstream tasks, showing their competitive performance against the state-of-the-art autoregressive transformer models under the mobile setting. Notably, MeRino achieves similar or better zero performance compared to the 350M parameter OPT while being 4.9x faster on NVIDIA Jetson Nano with 5.5x reduction in model size. Code will be made available soon.
Abstract（参考訳）: ジェネレーティブ・大型言語モデル(LLMs)は、現代人工知能(AI)における革命的な進歩である。しかし,インターネット・オブ・シング(IoT)デバイスなどのリソース制約のあるハードウェアにLSMを直接デプロイすることは,計算コストが高いため困難である。本稿では,モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。特に、MeRino は 350M のパラメータ OPT と同じような、あるいはより良いゼロ性能を達成し、NVIDIA Jetson Nano では 5.5 倍のモデルサイズで 4.9 倍高速である。コードはまもなく利用可能になる。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文参考訳（メタデータ） (2025-03-18T21:06:21Z)
The Ingredients for Robotic Diffusion Transformers [47.61690903645525]
我々は,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。結果として得られるモデルは、複数のロボットエンボディメント上の多様なタスクを効率的に解決することができる。当社のポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実証データを用いた10時間トレーニングによるスケーリング性能の向上を示す。
論文参考訳（メタデータ） (2024-10-14T02:02:54Z)
On-device AI: Quantization-aware Training of Transformers in Time-Series [0.0]
Transformerモデルは、これらのAIモデルの中で最も魅力的だ。私の研究は、時系列予測タスクのためのTransformerモデルを最適化することに焦点を当てています。最適化されたモデルは、組み込みフィールドプログラマブルゲートアレイ(FPGA)上にハードウェアアクセラレータとしてデプロイされる。
論文参考訳（メタデータ） (2024-08-29T12:49:22Z)
On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文参考訳（メタデータ） (2024-08-26T03:33:36Z)
Apple Intelligence Foundation Language Models [109.60033785567484]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文参考訳（メタデータ） (2024-07-29T18:38:49Z)
Hardware-Efficient EMG Decoding for Next-Generation Hand Prostheses [3.0483490999157605]
現在の商用のロボット義手(RPH)は、基本的なオン/オフコマンドによる限定的な制御を提供する。機械学習の最近の進歩は、より高い自由度で指の動きを復号できる。本稿では,次世代携帯型RPHのオンチップ動作復号化を実現するために,新たなアトラクタベースニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-05-30T13:38:28Z)
Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文参考訳（メタデータ） (2024-05-23T04:12:49Z)
Optimization of Lightweight Malware Detection Models For AIoT Devices [2.4947404267499587]
マルウェア侵入はInternet of Things(IoT)とArtificial Intelligence of Things(AIoT)デバイスの問題である。本研究の目的は、提案するスーパーラーナーメタ学習アンサンブルモデルを最適化して、ローエンドのAIoTデバイスで実現できるようにすることである。
論文参考訳（メタデータ） (2024-04-06T09:30:38Z)
LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文参考訳（メタデータ） (2024-01-20T01:10:18Z)
MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。 MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文参考訳（メタデータ） (2023-10-24T12:22:34Z)
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。 Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文参考訳（メタデータ） (2023-07-13T17:59:33Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
End-to-end AI framework for interpretable prediction of molecular and crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文参考訳（メタデータ） (2022-12-21T19:27:51Z)
Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。 Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文参考訳（メタデータ） (2022-08-25T17:59:00Z)
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.75234515196426]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文参考訳（メタデータ） (2022-01-28T08:59:57Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文参考訳（メタデータ） (2021-01-11T16:11:52Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。