論文の概要: FastOmniTMAE: Parallel Clause Learning for Scalable and Hardware-Efficient Tsetlin Embeddings
- arxiv url: http://arxiv.org/abs/2605.06982v1
- Date: Thu, 07 May 2026 21:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.643883
- Title: FastOmniTMAE: Parallel Clause Learning for Scalable and Hardware-Efficient Tsetlin Embeddings
- Title(参考訳): FastOmniTMAE: スケーラブルでハードウェア効率の良いTsetlin埋め込みのための並列クロース学習
- Authors: Ahmed K. Kadhim, Lei Jiao, Rishad Shafik, Ole-Christoffer Granmo, Mayur Kishor Shende,
- Abstract要約: Tsetlin Machine (TM) は論理ベースの学習パラダイムを提供する。
TMはこのパラダイムを、単一の節層内の状態分布を利用して静的な埋め込みに適用する。
Fast OmniTMAEは、シーケンシャルなトレーニング依存関係を2段階の並列プロセスで置き換える。
- 参考スコア(独自算出の注目度): 9.175161101366749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding models in natural language processing (NLP) increasingly rely on deep architectures such as BERT, while simpler models such as Word2Vec provide efficient representations but limited interpretability. The Tsetlin Machine (TM) offers an alternative logic-based learning paradigm. Omni TM Autoencoder (Omni TM-AE) applies this paradigm to static embedding by exploiting automaton state distributions within a single clause layer, but its training process remains slow. In this work, we propose FastOmniTMAE, a reformulation of Omni TM-AE that replaces sequential training dependencies with a two-stage parallel process: evaluation and update. Using a Single-Run Multi-Environment Benchmark covering classification, similarity, and clustering, FastOmniTMAE achieves up to 5$\times$ faster training in classification while maintaining comparable embedding quality under both Spearman and Kendall similarity measures. To address the limited efficiency of TM training on conventional GPUs, we further implement FastOmniTMAE as a reusable accelerator on SoC-FPGA platforms. The Multi-Hardware Benchmark shows that FastOmniTMAE achieves similarity scores of 0.669 on a resource-constrained FPGA and 0.696 on an UltraScale+ SoC, demonstrating efficient logic-based embedding training with a small hardware footprint.
- Abstract(参考訳): 自然言語処理(NLP)におけるモデル埋め込みはBERTのような深いアーキテクチャに依存し、Word2Vecのような単純なモデルは効率的な表現を提供するが、解釈性は限られている。
Tsetlin Machine (TM) は代替の論理ベースの学習パラダイムを提供する。
Omni TM Autoencoder (Omni TM-AE) はこのパラダイムを、単一節層内のオートマトン状態分布を利用して静的埋め込みに適用するが、トレーニングプロセスは遅いままである。
本研究は,Omni TM-AEの更新であるFastOmniTMAEを提案する。
分類、類似性、クラスタリングをカバーしたシングル実行マルチ環境ベンチマークを使用して、FastOmniTMAEは、SpearmanとKendallの類似度対策の両方で同等の埋め込み品質を維持しながら、分類における高速なトレーニングを最大5$\times$達成する。
従来のGPU上でのTMトレーニングの限られた効率に対処するため,SoC-FPGAプラットフォーム上で再利用可能なアクセラレータとしてFastOmniTMAEを実装した。
Multi-Hardware Benchmarkは、FastOmniTMAEがリソース制約付きFPGAで0.669、UltraScale+ SoCで0.696の類似点を獲得し、ハードウェアフットプリントを小さくした効率的なロジックベースの埋め込みトレーニングを実証していることを示している。
関連論文リスト
- HGQ-LUT: Fast LUT-Aware Training and Efficient Architectures for DNN Inference [12.364180908244188]
この研究は、最新のGPUで100倍以上のトレーニングを加速しながら、最先端のハードウェア効率を実現する新しいLATアプローチであるHGQ-LUTを提示する。
LUT-Dense 層と LUT-Conv 層を組み合わせることで、HGQ-LUT は手動のビット幅調整なしで精度の低いトレードオフを自動的に探索できる。
さらに、HGQ-LUTをオープンソースツールチェーンに統合し、ハイブリッドアーキテクチャの統一設計、コンパイル、ビット実行検証を可能にする。
論文 参考訳(メタデータ) (2026-04-24T07:13:30Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。
TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。
TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文 参考訳(メタデータ) (2025-11-10T17:45:09Z) - Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization [0.4499833362998488]
Tsetlin Machine (TM) はCPUなどのリソース制限されたデバイスに高速な推論を提供する。
命令レベルビットワイド演算を利用したTMの効率的なソフトウェア実装を提案する。
本稿では,TMのand-based節評価を利用して不要な計算を回避する早期終了機構を提案する。
論文 参考訳(メタデータ) (2025-10-17T13:44:20Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs [0.3440236962613469]
本稿では,Deep Neural Networks (DNN) の代替として,動的Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。
DTMは、より少ない乗算累積で微分計算を欠いた訓練を行う。
提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
論文 参考訳(メタデータ) (2025-04-28T13:38:53Z) - Pipeline Gradient-based Model Training on Analog In-memory Accelerators [27.7426132507863]
インメモリAIMCアクセラレータは、エネルギー効率のよい方法で大規模なディープニューラルモデル(DNN)のトレーニングを加速することができる。
我々は、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレーターに対して、同期および非同期パイプライン並列性を提案する。
本稿では、サンプリングとクロックサイクルの複雑さの観点から、同期パイプラインと非同期パイプラインの両方に理論的収束を保証する。
論文 参考訳(メタデータ) (2024-10-19T16:58:34Z) - MATADOR: Automated System-on-Chip Tsetlin Machine Design Generation for Edge Applications [0.2663045001864042]
本稿では,GUIインタフェースを備えた自動シリコンツールであるMATADORについて述べる。
モデルトレーニング、システムレベルの設計生成、設計検証、デプロイメントという、完全な開発パイプラインの自動化を提供する。
MATADOR加速器の設計は、最先端の量子化およびバイナリディープニューラルネットワークの実装と比較して最大13.4倍、最大7倍、最大2倍の電力効率を持つことが示されている。
論文 参考訳(メタデータ) (2024-03-03T10:31:46Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。