Fugu-MT 論文翻訳(概要): SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

論文の概要: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

arxiv url: http://arxiv.org/abs/2410.11331v1
Date: Tue, 15 Oct 2024 06:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.659986
Title: SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments
Title（参考訳）: SHAKTI:エッジAIと低リソース環境に最適化された25億のパラメータ小言語モデル
Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti,
Abstract要約: Shaktiは高性能NLPと最適化された効率と精度を組み合わせた。言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Shakti, a 2.5 billion parameter language model specifically optimized for resource-constrained environments such as edge devices, including smartphones, wearables, and IoT systems. Shakti combines high-performance NLP with optimized efficiency and precision, making it ideal for real-time AI applications where computational resources and memory are limited. With support for vernacular languages and domain-specific tasks, Shakti excels in industries such as healthcare, finance, and customer service. Benchmark evaluations demonstrate that Shakti performs competitively against larger models while maintaining low latency and on-device efficiency, positioning it as a leading solution for edge AI.
Abstract（参考訳）: Shaktiは25億のパラメータ言語モデルで、スマートフォンやウェアラブル、IoTシステムなど、エッジデバイスなどのリソース制約のある環境に特化しています。 Shaktiは高性能なNLPと最適化された効率と精度を組み合わせることで、計算資源とメモリが制限されたリアルタイムAIアプリケーションに最適である。言語やドメイン固有のタスクをサポートすることで、Shaktiは医療、金融、カスタマーサービスといった業界に長けている。ベンチマーク評価によると、Shaktiはレイテンシとデバイス上の効率を低く保ちながら、より大きなモデルに対して競争力を発揮する。

関連論文リスト

On the Sustainability of AI Inferences in the Edge [3.71486243189764]
エッジデバイスはレイテンシクリティカルなアプリケーションをサポートするためにAI推論を実行する。情報意思決定における性能とエネルギー利用に関する研究は行われていない。モデルF1のスコア、推測時間、推論パワー、メモリ使用量のトレードオフを分析する。
論文参考訳（メタデータ） (2025-07-30T20:47:22Z)
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。 AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文参考訳（メタデータ） (2025-05-03T13:55:38Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective [0.0]
本稿では,これらの制約を直接対象とするShakti-100M,Shakti-250M,Shakti-500Mを紹介する。効率的なアーキテクチャ、量子化技術、責任あるAI原則を組み合わせることで、Shaktiシリーズはスマートフォン、スマートアプライアンス、IoTシステムなどのデバイス上でのインテリジェンスを可能にする。
論文参考訳（メタデータ） (2025-03-03T04:53:55Z)
XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。 XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。 XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文参考訳（メタデータ） (2025-02-10T17:33:30Z)
Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies [14.115655986504411]
5Gとエッジコンピューティングハードウェアは、人工知能に大きな変化をもたらした。リソース制約のあるエッジデバイスに最先端のAIモデルをデプロイすることは、大きな課題に直面している。本稿では,効率的かつ信頼性の高いエッジAIデプロイメントのための最適化トライアドを提案する。
論文参考訳（メタデータ） (2025-01-04T06:17:48Z)
Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。 BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文参考訳（メタデータ） (2024-12-03T19:20:08Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文参考訳（メタデータ） (2024-09-30T12:36:27Z)
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文参考訳（メタデータ） (2024-06-12T22:58:12Z)
EdgeOL: Efficient in-situ Online Learning on Edge Devices [51.86178757050963]
予測精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークであるEdgeOLを提案する。実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。
論文参考訳（メタデータ） (2024-01-30T02:41:05Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Multi-Component Optimization and Efficient Deployment of Neural-Networks on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文参考訳（メタデータ） (2022-04-20T13:30:04Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
Latency-Memory Optimized Splitting of Convolution Neural Networks for Resource Constrained Edge Devices [1.6873748786804317]
我々は、エッジデバイスとクラウド間でCNNを実行することは、リソース制約のある最適化問題を解決することと同義であると主張している。実世界のエッジデバイスでの実験では、LMOSはエッジで異なるCNNモデルの実行可能な実行を保証する。
論文参考訳（メタデータ） (2021-07-19T19:39:56Z)
Latency-Aware Neural Architecture Search with Multi-Objective Bayesian Optimization [6.336877151493941]
我々は、高次元検索空間におけるベイズ最適化の方法論的進歩と多目的ベイズ最適化を利用して、これらのトレードオフを探究し、Facebookの大規模オンデバイス自然言語理解モデルを構築した。
論文参考訳（メタデータ） (2021-06-22T15:59:08Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Particle Swarm Optimized Federated Learning For Industrial IoT and Smart City Services [9.693848515371268]
本研究では,局所機械学習モデルに対するハイパーパラメータ設定を最適化するために,PSOに基づく手法を提案する。 2つのケーススタディを用いて提案手法の性能評価を行った。
論文参考訳（メタデータ） (2020-09-05T16:20:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。