論文の概要: GPU-Accelerated Synthesis of Mixed-Boolean Arithmetic: Beyond Caching
- arxiv url: http://arxiv.org/abs/2605.08243v1
- Date: Thu, 07 May 2026 09:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.491852
- Title: GPU-Accelerated Synthesis of Mixed-Boolean Arithmetic: Beyond Caching
- Title(参考訳): GPU-Accelerated Synthesis of Mixed-Boolean Arithmetic: Beyond Caching
- Authors: Gabriel Bathie, Baptiste Mouillon, Nathanaël Fijalkow,
- Abstract要約: 本稿では,キャッシュレスボトムアップ列挙を中心に構築されたGPUアクセラレーション型MBAシンセサイザーSIMBAを提案する。
実験では、SIMBAは従来のMBA合成ツールよりもかなり高速で、より大きな仕様を処理し、既存の手法では解決できなかった表現サイズに達する。
- 参考スコア(独自算出の注目度): 3.921125675673334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing Mixed-Boolean Arithmetic (MBA) expressions from input-output examples is central to program deobfuscation and also useful for compiler optimization, reverse engineering, and cryptanalysis. Existing MBA synthesizers are typically CPU-based and scale poorly on large specifications or complex targets. Recent GPU-accelerated synthesis methods achieve large speedups in qualitative settings, but they depend on caching observationally equivalent candidates; this strategy breaks down for MBA because candidate outputs are quantitative bitvectors and the behavioral space is enormous. We present SIMBA (Synthesis of Mixed-Boolean Arithmetic), a GPU-accelerated MBA synthesizer built around cache-free bottom-up enumeration. SIMBA avoids language caches entirely and uses a GPU-oriented enumeration design that keeps work local and highly parallel. In experiments, SIMBA is substantially faster than prior MBA synthesis tools, handles larger specifications, and reaches expression sizes that existing methods fail to solve. These results establish cache-free GPU synthesis as a practical and scalable approach for quantitative domains, and identify it as a strong alternative to cache-centric designs.
- Abstract(参考訳): 入力出力の例からMBA(Mixed-Boolean Arithmetic)式を合成することは、プログラムの難読化の中心であり、コンパイラの最適化、リバースエンジニアリング、暗号解析にも有用である。
既存のMBAシンセサイザーは一般にCPUベースであり、大きな仕様や複雑なターゲットではスケールが不十分である。
近年のGPU加速合成法は定性的な設定で大幅な高速化を実現するが、観測値に等価な候補のキャッシングに依存しており、候補出力が定量的なビットベクターであり、行動空間が巨大であるため、MBAにとってこの戦略は崩壊する。
キャッシュレスボトムアップ列挙を中心に構築されたGPU加速型MBAシンセサイザーであるSIMBA(Synthesis of Mixed-Boolean Arithmetic)を提案する。
SIMBAは言語キャッシュを完全に回避し、ローカルかつ並列に動作するGPU指向の列挙設計を使用する。
実験では、SIMBAは従来のMBA合成ツールよりもかなり高速で、より大きな仕様を処理し、既存の手法では解決できなかった表現サイズに達する。
これらの結果は、定量的ドメインの実践的でスケーラブルなアプローチとしてキャッシュフリーGPU合成を確立し、キャッシュ中心の設計の強力な代替品として認識する。
関連論文リスト
- ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants [12.49256588033198]
LLMベースのコーディングエージェントは、機能的に正しいGPUカーネルを生成することができるが、その性能は、重要な計算に関する手動最適化ライブラリよりもはるかに低いままである。
データフロー不変量を通じてこの問題に対処するエージェントフレームワークであるArgusを紹介します。
我々は、GEMM、フラッシュアテンション、MoEカーネルにわたるAMD MI300X GPU上でArgusを評価する。
論文 参考訳(メタデータ) (2026-04-16T15:49:31Z) - GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs [1.8933299988942567]
ホモモルフィック暗号化(英語版)(FHE)は、暗号プリミティブとシステムチャレンジの両方として注目されている。
我々は,GPU専用に設計された最近のオープンソースFHEライブラリであるFIDESlibを用いて,暗号文行列のランタイムと複雑性を改善するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2026-04-13T16:09:26Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - GPU accelerated program synthesis: Enumerate semantics, not syntax! [1.3422713954544112]
入力正および負のサンプルトレースとしてGPU上で動作する合成器を構築し、正のトレースを受け入れて負のトレースを拒否する論理式を返す。
GPUに親しみやすいプログラミング技術では、我々の合成器ははるかに大きな合成問題にスケールし、以前のCPUベースの最先端技術よりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2025-04-26T15:06:37Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。