Fugu-MT 論文翻訳(概要): Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity

論文の概要: Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity

arxiv url: http://arxiv.org/abs/2512.04355v1
Date: Thu, 04 Dec 2025 01:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:45.944465
Title: Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity
Title（参考訳）: 実行せずにカウントする - LLMのコードの複雑さに関する推論を評価する
Authors: Gregory Bolet, Giorgis Georgakoudis, Konstantinos Parasyris, Harshitha Menon, Niranjan Hasabnis, Kirk W. Cameron, Gal Oren,
Abstract要約: 性能ボトルネックを予測するため,LLM(Large Language Models)のベンチマークを開発した。 FLOPBenchは577カーネルの単精度と倍精度のFLOP数を予測する。われわれはFLOPBenchをLLMツールの開発に焦点をあてたテストベッドとして位置づけた。
参考スコア（独自算出の注目度）: 2.7389338551082605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern GPU software stacks demand developers who can anticipate performance bottlenecks before ever launching a kernel; misjudging floating-point workloads upstream can derail tuning, scheduling, and even hardware procurement. Yet despite rapid progress in code generation, today's Large Language Models (LLMs) are rarely tested on this kind of forward-looking reasoning. We close that gap with gpuFLOPBench, a benchmark that asks models to "count without running" by predicting single and double-precision FLOP counts for 577 CUDA kernels drawn from HeCBench, annotated with ground-truth profiles and eight execution attributes that distinguish trivially analyzable code from kernels whose FLOPs depend on hidden compiler or runtime behavior. Evaluating current closed-source reasoning models shows clear but uneven progress: the newest LLMs achieve perfect classification on straightforward kernels but still incur multiple order-of-magnitude errors whenever implicit FLOPs arise from division, intrinsic math functions, or common subexpressions. These results surface a core limitation of existing code assistants -- the inability to internalize hardware-specific microcode effects -- and position gpuFLOPBench as a focused testbed for developing LLM tooling that can reason about performance with the same rigor as experienced GPU developers. Sources are available at our repository: https://github.com/Scientific-Computing-Lab/gpuFLOPBench
Abstract（参考訳）: 最新のGPUソフトウェアスタックは、カーネルを起動する前にパフォーマンスボトルネックを予測できる開発者を必要とする。しかし、コード生成の急速な進歩にもかかわらず、今日のLarge Language Models(LLM)は、この種の前方の推論でテストされることはめったにない。 gpuFLOPBenchは、HeCBenchから引き出された577のCUDAカーネルに対して、単一および二重精度のFLOPカウントを予測して、モデルに"走らないカウント"を求めるベンチマークである。現在のクローズドソース推論モデルを評価すると、明らかだが不均一な進歩が示される: 最新のLLMは、単純なカーネル上で完璧に分類できるが、暗黙的なFLOPが除算、本質的な数学関数、あるいは共通部分表現から生じるたびに、複数のマグニチュードエラーを発生させる。これらの結果は、既存のコードアシスタント(ハードウェア固有のマイクロコードエフェクトを内部化できないこと)の中核的な制限を表面化し、gpuFLOPBenchを、経験豊富なGPU開発者と同じ厳格さでパフォーマンスを推論できるLLMツールを開発するための集中テストベッドとして位置付けている。ソースは、私たちのリポジトリで入手できる。 https://github.com/Scientific-Computing-Lab/gpuFLOPBench

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文参考訳（メタデータ） (2026-01-21T19:29:00Z)
dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文参考訳（メタデータ） (2025-09-16T11:08:30Z)
Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文参考訳（メタデータ） (2025-06-25T23:36:44Z)
Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。 LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-05-06T21:41:20Z)
KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文参考訳（メタデータ） (2025-02-14T19:30:53Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。