論文の概要: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments
- arxiv url: http://arxiv.org/abs/2410.11331v1
- Date: Tue, 15 Oct 2024 06:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:31.664921
- Title: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments
- Title(参考訳): SHAKTI:エッジAIと低リソース環境に最適化された25億のパラメータ小言語モデル
- Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti,
- Abstract要約: Shaktiは高性能NLPと最適化された効率と精度を組み合わせた。
言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce Shakti, a 2.5 billion parameter language model specifically optimized for resource-constrained environments such as edge devices, including smartphones, wearables, and IoT systems. Shakti combines high-performance NLP with optimized efficiency and precision, making it ideal for real-time AI applications where computational resources and memory are limited. With support for vernacular languages and domain-specific tasks, Shakti excels in industries such as healthcare, finance, and customer service. Benchmark evaluations demonstrate that Shakti performs competitively against larger models while maintaining low latency and on-device efficiency, positioning it as a leading solution for edge AI.
- Abstract(参考訳): Shaktiは25億のパラメータ言語モデルで、スマートフォンやウェアラブル、IoTシステムなど、エッジデバイスなどのリソース制約のある環境に特化しています。
Shaktiは高性能なNLPと最適化された効率と精度を組み合わせることで、計算資源とメモリが制限されたリアルタイムAIアプリケーションに最適である。
言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。
ベンチマーク評価によると、Shaktiはレイテンシとデバイス上の効率を低く保ちながら、より大きなモデルに対して競争力を発揮する。
関連論文リスト
- XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。
XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。
XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文 参考訳(メタデータ) (2025-02-10T17:33:30Z) - Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies [14.115655986504411]
5Gとエッジコンピューティングハードウェアは、人工知能に大きな変化をもたらした。
リソース制約のあるエッジデバイスに最先端のAIモデルをデプロイすることは、大きな課題に直面している。
本稿では,効率的かつ信頼性の高いエッジAIデプロイメントのための最適化トライアドを提案する。
論文 参考訳(メタデータ) (2025-01-04T06:17:48Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Component Optimization and Efficient Deployment of Neural-Networks
on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。
最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文 参考訳(メタデータ) (2022-04-20T13:30:04Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Latency-Memory Optimized Splitting of Convolution Neural Networks for
Resource Constrained Edge Devices [1.6873748786804317]
我々は、エッジデバイスとクラウド間でCNNを実行することは、リソース制約のある最適化問題を解決することと同義であると主張している。
実世界のエッジデバイスでの実験では、LMOSはエッジで異なるCNNモデルの実行可能な実行を保証する。
論文 参考訳(メタデータ) (2021-07-19T19:39:56Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Particle Swarm Optimized Federated Learning For Industrial IoT and Smart
City Services [9.693848515371268]
本研究では,局所機械学習モデルに対するハイパーパラメータ設定を最適化するために,PSOに基づく手法を提案する。
2つのケーススタディを用いて提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-09-05T16:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。