論文の概要: Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon
- arxiv url: http://arxiv.org/abs/2605.09708v1
- Date: Sun, 10 May 2026 19:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.383898
- Title: Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon
- Title(参考訳): Metal-Sci: Apple Silicon上の進化的LLMカーネル検索のための科学計算ベンチマーク
- Authors: Víctor Gallego,
- Abstract要約: Metal-SciはApple Silicon Metal計算カーネルの10タスクベンチマークである。
各タスクはCPU参照、ルーフラインアンコールされたフィットネス機能、および保持可能な一般化サイズを出荷する。
We reported matched single-model sweeps of Claude Opus 4.7, Gemini 3.1 Pro, GPT 5.5 on M1 Pro。
- 参考スコア(独自算出の注目度): 6.599344783327054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Metal-Sci, a 10-task benchmark of scientific Apple Silicon Metal compute kernels spanning six optimization regimes (stencils, all-pairs in $n$-body problems, multi-field Boltzmann, neighbor-list molecular dynamics, multi-kernel PDE, FFT). Each task ships a CPU reference, a roofline-anchored fitness function, and a held-out generalization size. We pair the benchmark with a lightweight harness for automatic kernel search that runtime-compiles each candidate, scores it against the roofline across multiple sizes, and feeds structured compile and per-size correctness diagnostics back to a frozen LLM driving a $(1{+}1)$ evolutionary loop. We report matched single-model sweeps of Claude Opus 4.7, Gemini 3.1 Pro, and GPT 5.5 on M1 Pro: in-distribution self-speedups span $1.00\times$ to $10.7\times$. Beyond raw speedup, our central methodological claim is structural: the held-out gate scoring function $Φ_\mathcal{T}$ (evaluated once at end-of-run on a configuration the agent never sees during search) functions as a cheap mechanical oversight primitive on this automatic search loop, catching e.g. an Opus template <uint D> HMC win that returns wrong samples at unseen dimensions, and a GPT FFT3D best that wins in-distribution at $2.95\times$ speedup but collapses to $0.23\times$ on a $256^3$ held-out cube, a silent regression that the in-distribution score alone cannot see. Code at https://github.com/vicgalle/metal-sci-kernels
- Abstract(参考訳): 我々は、Apple Silicon Metal計算カーネルの10タスクベンチマークであるMetal-Sciを、6つの最適化レジームにまたがる(ステンシル、$n$ボディ問題における全ペア、マルチフィールドボルツマン、隣の分子動力学、マルチカーネルPDE、FFT)。
各タスクはCPU参照、ルーフラインアンコールされたフィットネス機能、および保留の一般化サイズを出荷する。
ベンチマークと、ランタイムが各候補をコンパイルし、複数のサイズで屋根線に対してスコアを付け、構造化されたコンパイルとサイズ毎の正当性診断を冷凍LLMにフィードバックし、1{+}$進化ループを駆動する。
我々は、M1 ProのClaude Opus 4.7、Gemini 3.1 Pro、GPT 5.5のシングルモデルスイープと一致したことを報告した。
ホールドアウトゲートスコアリング関数 $ _\mathcal{T}$ (検索中にエージェントが見つからない構成で一度評価される) は、この自動検索ループ上で安価な機械的監視プリミティブとして機能し、e g an Opus template <uint D> HMC win をキャッチし、見当たらない次元で間違ったサンプルを返却する GPT FFT3D best を2.95\times$ で分配するが、256^3$ のホールドアウトキューブで$0.23\times$ に崩壊する。
Code at https://github.com/vicgalle/metal-sci-kernels
関連論文リスト
- Two Layers, No Swaps: Biplanar SPOQC Architecture Improves Runtime of Fermi-Hubbard Simulation [0.0]
二平面スピン光学量子コンピューティングアーキテクチャ上での2次元フェルミ・ハバードモデルのシミュレーションコストを推定する。
各平面内における格子手術とマジック状態準備のベンチマークを行った。
フォールバックに基づく回転合成法はスケーラビリティのボトルネックとなる。
論文 参考訳(メタデータ) (2026-05-06T18:00:09Z) - Hardware Validation of DAGI via a Modular "Ridge" Signature and High-Order Synergistic Information [0.0]
IBM Quantumハードウェア上でのDAGI(Directed Acyclic Graph Information)フレームワーク。
理想的な出力分布が低次元モジュラー多様体(リッジ)に制約される小さな制御された実験
キーリカバリはチャンスを超えた:ショット毎の精度0.1689(チャンス0.125,95% Wilson CI[0.1610, 0.1772])
これらの結果は、DAGIが非自明でハードウェアに耐性のある情報構造を検出し、定量化するという主張を支持する。
論文 参考訳(メタデータ) (2026-04-16T14:16:59Z) - FHECore: Rethinking GPU Microarchitecture for Fully Homomorphic Encryption [2.7777199166440827]
FHE(Fully Homomorphic Encryption)は、暗号化されたデータを直接計算できるが、膨大な計算とメモリオーバーヘッドを発生させる。
カスタムアクセラレーターはこれらのコストを軽減することができるが、市場投入までの長い時間とFHEアルゴリズムの急速な進化は、長期的な妥当性を脅かす。
本稿では,GPUのストリームマルチプロセッサに直接統合された特殊な機能ユニットであるFHECoreを提案する。
論文 参考訳(メタデータ) (2026-02-10T02:55:10Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Graph Random Features for Scalable Gaussian Processes [52.89901965157282]
離散入力空間上のスケーラブルなガウス過程へのグラフランダム特徴(GRF)の適用について検討する。
我々は、(穏やかな仮定の下で) GRF に対するベイズ的推論が、正確なカーネルに対して$O(N3)$のノード数に対して$O(N3/2)$の時間複雑性を楽しむことを証明した。
論文 参考訳(メタデータ) (2025-09-03T20:13:23Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - TURF: A Two-factor, Universal, Robust, Fast Distribution Learning
Algorithm [64.13217062232874]
最も強力で成功したモダリティの1つは、全ての分布を$ell$距離に近似し、基本的に最も近い$t$-piece次数-$d_$の少なくとも1倍大きい。
本稿では,この数値をほぼ最適に推定する手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T03:49:28Z) - Giga-scale Kernel Matrix Vector Multiplication on GPU [19.663081364196778]
Kernel matrix-vector multiplication (KMVM) は、機械学習と科学計算の基礎となる演算である。
KMVMはメモリと時間の両方で二次的にスケールする傾向があるため、アプリケーションはしばしばこれらの計算制約によって制限される。
本稿では,これらのスケーリング問題に対処するため,textitFaster-Fast and Free Memory Method(f30,000m$)という新しい近似手法を提案する。
論文 参考訳(メタデータ) (2022-02-02T15:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。