論文の概要: PALMA: A Lightweight Tropical Algebra Library for ARM-Based Embedded Systems
- arxiv url: http://arxiv.org/abs/2601.17028v1
- Date: Sat, 17 Jan 2026 23:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.00732
- Title: PALMA: A Lightweight Tropical Algebra Library for ARM-Based Embedded Systems
- Title(参考訳): PALMA:ARMベースの組み込みシステムのための軽量熱帯代数ライブラリ
- Authors: Gnankan Landry Regis N'guessan,
- Abstract要約: PALMA(Parallel Algebra Library for Max-plus Applications)は、ARMベースの組み込みシステムにトロピカル線形代数をもたらす軽量で依存性のないCライブラリである。
PALMAはSIMD加速カーネルによる汎用的なセミリング抽象化を実装しており、単一の計算フレームワークが最短経路、ボトルネックパス、到達可能性、スケジューリング、スループット分析をサポートすることができる。
我々は,2,274 MOPSのピーク性能,単一ソースの最短経路に対する従来のBellman-Fordの最大1.9倍の高速化,およびリアルタイム制御ワークロードに対するサブ10マイクロ秒スケジューリングを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tropical algebra, including max-plus, min-plus, and related idempotent semirings, provides a unifying framework in which many optimization problems that are nonlinear in classical algebra become linear. This property makes tropical methods particularly well suited for shortest paths, scheduling, throughput analysis, and discrete event systems. Despite their theoretical maturity and practical relevance, existing tropical algebra implementations primarily target desktop or server environments and remain largely inaccessible on resource-constrained embedded platforms, where such optimization problems are most acute. We present PALMA (Parallel Algebra Library for Max-plus Applications), a lightweight, dependency-free C library that brings tropical linear algebra to ARM-based embedded systems. PALMA implements a generic semiring abstraction with SIMD-accelerated kernels, enabling a single computational framework to support shortest paths, bottleneck paths, reachability, scheduling, and throughput analysis. The library supports five tropical semirings, dense and sparse (CSR) representations, tropical closure, and spectral analysis via maximum cycle mean computation. We evaluate PALMA on a Raspberry Pi 4 and demonstrate peak performance of 2,274 MOPS, speedups of up to 11.9 times over classical Bellman-Ford for single-source shortest paths, and sub-10 microsecond scheduling solves for real-time control workloads. Case studies in UAV control, IoT routing, and manufacturing systems show that tropical algebra enables efficient, predictable, and unified optimization directly on embedded hardware. PALMA is released as open-source software under the MIT license.
- Abstract(参考訳): 最大余剰、最小余剰、および関連する等等等半環を含むトロピカル代数は、古典代数において非線形である多くの最適化問題を線型化する統一フレームワークを提供する。
この特性は、特に最短経路、スケジューリング、スループット分析、離散イベントシステムに適している。
理論的な成熟度と実践的妥当性にもかかわらず、既存のトロピカル代数の実装は主にデスクトップやサーバ環境をターゲットにしており、そのような最適化問題が最も急激なリソース制約の組込みプラットフォームではアクセスできない。
PALMA(Parallel Algebra Library for Max-plus Applications)は、ARMベースの組み込みシステムにトロピカル線形代数をもたらす軽量で依存性のないCライブラリである。
PALMAはSIMD加速カーネルによる汎用的なセミリング抽象化を実装しており、単一の計算フレームワークが最短経路、ボトルネックパス、到達可能性、スケジューリング、スループット分析をサポートすることができる。
この図書館は5つの熱帯半環、密度とスパース(CSR)表現、熱帯閉鎖、最大サイクル平均計算によるスペクトル分析をサポートしている。
Raspberry Pi 4上でPALMAを評価し,2,274 MOPSのピーク性能,単一ソースのショートパスに対する従来のベルマンフォードの最大1.9倍の高速化,およびリアルタイム制御ワークロードに対するサブ10マイクロ秒スケジューリングの解決を実証した。
UAV制御、IoTルーティング、製造システムにおけるケーススタディは、トロピカル代数が組み込みハードウェア上で直接、効率的で予測可能で統一された最適化を可能にすることを示している。
PALMAはMITライセンス下でオープンソースソフトウェアとしてリリースされた。
関連論文リスト
- Batch Matrix-form Equations and Implementation of Multilayer Perceptrons [11.220061576867558]
多層パーセプトロン(MLP)は現代のディープラーニングの基礎であるが、アルゴリズムの詳細は完全で明示的なEmphbatch行列形式で提示されることは滅多にない。
自動微分は等しく高い計算効率を達成するが、バッチ行列形式の使用により計算構造が明確になる。
本稿では,バッチ行列形式の勾配の数学的に厳密な実装仕様を提供することにより,そのギャップを埋める。
論文 参考訳(メタデータ) (2025-11-14T22:52:27Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - LightCode: Compiling LLM Inference for Photonic-Electronic Systems [0.26068343017240947]
LightCodeは、大型言語モデル(LLM)をフォトニック電子系にマッピングするためのコンパイラフレームワークとシミュレータである。
本稿では,各テンソル演算のハードウェア固有の実現を符号化する中間表現であるStacked Graphを紹介する。
シミュレーションされたワークロードの最大シーケンス長で、Photonicハードウェアがエネルギーを最大50%削減できることが示されています。
論文 参考訳(メタデータ) (2025-09-19T21:45:26Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。