論文の概要: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments
- arxiv url: http://arxiv.org/abs/2410.11331v1
- Date: Tue, 15 Oct 2024 06:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:31.664921
- Title: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments
- Title(参考訳): SHAKTI:エッジAIと低リソース環境に最適化された25億のパラメータ小言語モデル
- Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti,
- Abstract要約: Shaktiは高性能NLPと最適化された効率と精度を組み合わせた。
言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce Shakti, a 2.5 billion parameter language model specifically optimized for resource-constrained environments such as edge devices, including smartphones, wearables, and IoT systems. Shakti combines high-performance NLP with optimized efficiency and precision, making it ideal for real-time AI applications where computational resources and memory are limited. With support for vernacular languages and domain-specific tasks, Shakti excels in industries such as healthcare, finance, and customer service. Benchmark evaluations demonstrate that Shakti performs competitively against larger models while maintaining low latency and on-device efficiency, positioning it as a leading solution for edge AI.
- Abstract(参考訳): Shaktiは25億のパラメータ言語モデルで、スマートフォンやウェアラブル、IoTシステムなど、エッジデバイスなどのリソース制約のある環境に特化しています。
Shaktiは高性能なNLPと最適化された効率と精度を組み合わせることで、計算資源とメモリが制限されたリアルタイムAIアプリケーションに最適である。
言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。
ベンチマーク評価によると、Shaktiはレイテンシとデバイス上の効率を低く保ちながら、より大きなモデルに対して競争力を発揮する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Component Optimization and Efficient Deployment of Neural-Networks
on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。
最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文 参考訳(メタデータ) (2022-04-20T13:30:04Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Latency-Memory Optimized Splitting of Convolution Neural Networks for
Resource Constrained Edge Devices [1.6873748786804317]
我々は、エッジデバイスとクラウド間でCNNを実行することは、リソース制約のある最適化問題を解決することと同義であると主張している。
実世界のエッジデバイスでの実験では、LMOSはエッジで異なるCNNモデルの実行可能な実行を保証する。
論文 参考訳(メタデータ) (2021-07-19T19:39:56Z) - Latency-Aware Neural Architecture Search with Multi-Objective Bayesian
Optimization [6.336877151493941]
我々は、高次元検索空間におけるベイズ最適化の方法論的進歩と多目的ベイズ最適化を利用して、これらのトレードオフを探究し、Facebookの大規模オンデバイス自然言語理解モデルを構築した。
論文 参考訳(メタデータ) (2021-06-22T15:59:08Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Particle Swarm Optimized Federated Learning For Industrial IoT and Smart
City Services [9.693848515371268]
本研究では,局所機械学習モデルに対するハイパーパラメータ設定を最適化するために,PSOに基づく手法を提案する。
2つのケーススタディを用いて提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-09-05T16:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。