Fugu-MT 論文翻訳(概要): Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization

論文の概要: Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization

arxiv url: http://arxiv.org/abs/2510.15653v1
Date: Fri, 17 Oct 2025 13:44:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 20:17:34.641108
Title: Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization
Title（参考訳）: 命令レベル最適化を用いたCPU上の高速かつコンパクトなTsetlinマシン推論
Authors: Yefan Zeng, Shengyu Duan, Rishad Shafik, Alex Yakovlev,
Abstract要約: Tsetlin Machine (TM) はCPUなどのリソース制限されたデバイスに高速な推論を提供する。命令レベルビットワイド演算を利用したTMの効率的なソフトウェア実装を提案する。本稿では,TMのand-based節評価を利用して不要な計算を回避する早期終了機構を提案する。
参考スコア（独自算出の注目度）: 0.4499833362998488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Tsetlin Machine (TM) offers high-speed inference on resource-constrained devices such as CPUs. Its logic-driven operations naturally lend themselves to parallel execution on modern CPU architectures. Motivated by this, we propose an efficient software implementation of the TM by leveraging instruction-level bitwise operations for compact model representation and accelerated processing. To further improve inference speed, we introduce an early exit mechanism, which exploits the TM's AND-based clause evaluation to avoid unnecessary computations. Building upon this, we propose a literal Reorder strategy designed to maximize the likelihood of early exits. This strategy is applied during a post-training, pre-inference stage through statistical analysis of all literals and the corresponding actions of their associated Tsetlin Automata (TA), introducing negligible runtime overhead. Experimental results using the gem5 simulator with an ARM processor show that our optimized implementation reduces inference time by up to 96.71% compared to the conventional integer-based TM implementations while maintaining comparable code density.
Abstract（参考訳）: Tsetlin Machine (TM) はCPUなどのリソース制限されたデバイスに高速な推論を提供する。ロジック駆動の操作は、現代のCPUアーキテクチャ上での並列実行に自然に役立ちます。そこで我々は,コンパクトなモデル表現と高速化処理のための命令レベルビットワイズ演算を活用することで,TMの効率的なソフトウェア実装を提案する。推論速度をさらに向上するために,TMのand-based節評価を利用して不要な計算を避ける早期終了機構を導入する。そこで我々は,早期出口の可能性の最大化を目的としたリオーダー戦略を提案する。この戦略は、すべてのリテラルと関連するTsetlin Automata(TA)の対応するアクションの統計的解析を通じて、トレーニング後のプレ推論段階で適用され、無視可能なランタイムオーバーヘッドが導入される。 ARMプロセッサを用いたgem5シミュレータによる実験結果から,従来の整数型TM実装と比較して,最適化された実装では推論時間が96.71%削減され,コード密度は同等であった。

関連論文リスト

Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文参考訳（メタデータ） (2025-08-08T23:33:38Z)
Efficient FPGA Implementation of Time-Domain Popcount for Low-Complexity Machine Learning [0.2663045001864042]
人口数(人口数)は多くの低複雑性機械学習(ML)アルゴリズムにとって重要な操作である。本稿では,これらの操作を時間領域で実行することで高速化し,最適化する革新的な手法を提案する。
論文参考訳（メタデータ） (2025-05-04T16:44:15Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度行列(英: Mixed-precision matrix, mpGEMM)は、より高精度な活性化を伴う低精度重みの乗算を含む重要かつ未解明の演算である。オフザシェルフハードウェアはこの操作をサポートしておらず、間接的、すなわち非効率な復号化ベースの実装に繋がる。本稿では,mpGEMMのルックアップテーブル(LUT)に基づくアプローチについて検討し,従来のLUT実装では期待値の達成に失敗することを確認した。
論文参考訳（メタデータ） (2024-08-12T08:52:14Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文参考訳（メタデータ） (2022-10-27T07:22:50Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。