論文の概要: Combining Static Code Analysis and Large Language Models Improves Correctness and Performance of Algorithm Recognition
- arxiv url: http://arxiv.org/abs/2604.03048v1
- Date: Fri, 03 Apr 2026 13:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.488951
- Title: Combining Static Code Analysis and Large Language Models Improves Correctness and Performance of Algorithm Recognition
- Title(参考訳): 静的コード解析と大言語モデルを組み合わせることで、アルゴリズム認識の正確性と性能が向上する
- Authors: Denis Neumüller, Sebastian Boll, David Schüler, Matthias Tichy,
- Abstract要約: 我々は,LLMと静的コード解析を組み合わせることで,アルゴリズムの自動認識をいかに改善できるかを実証的に評価する。
この組み合わせのアプローチを,さまざまなプロンプト戦略の下で,スタンドアローンのパフォーマンスと比較する。
LLMは、識別子が難読化されている場合、ほとんどのアルゴリズムの実装を識別できるため、名前情報にのみ依存するわけではない。
- 参考スコア(独自算出の注目度): 0.27998963147546146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Since it is well-established that developers spend a substantial portion of their time understanding source code, the ability to automatically identify algorithms within source code presents a valuable opportunity. This capability can support program comprehension, facilitate maintenance, and enhance overall software quality. Objective: We empirically evaluate how combining LLMs with static code analysis can improve the automated recognition of algorithms, while also evaluating their standalone performance and dependence on identifier names. Method: We perform multiple experiments evaluating the combination of LLMs with static analysis using different filter patterns. We compare this combined approach against their standalone performance under various prompting strategies and investigate the impact of systematic identifier obfuscation on classification performance and runtime. Results: The combination of LLMs with lightweight static analysis performs surprisingly well, reducing required LLM calls by 72.39-97.50% depending on the filter pattern. This not only lowers runtime significantly but also improves F1-scores by up to 12 percentage points (pp) compared to the baseline. Regarding the different prompting strategies, in-context learning with two examples provides an effective trade-off between classification performance and runtime efficiency, achieving F1-scores of 75-77% with only a modest increase in inference time. Lastly, we find that LLMs are not solely dependent on name-information as they are still able to identify most algorithm implementations when identifiers are obfuscated. Conclusion: By combining LLMs with static analysis, we achieve substantial reductions in runtime while simultaneously improving F1-scores, underscoring the value of a hybrid approach.
- Abstract(参考訳): コンテキスト: 開発者がソースコードを理解するのにかなりの時間を費やすことは十分に確立されているため、ソースコード内のアルゴリズムを自動的に識別する能力は貴重な機会となります。
この機能は、プログラムの理解をサポートし、メンテナンスを容易にし、全体的なソフトウェア品質を向上させることができる。
Objective: LLMと静的コード解析を組み合わせることで,アルゴリズムの自動認識が向上すると同時に,そのスタンドアロンのパフォーマンスと識別子名への依存性を実証的に評価する。
方法: 異なるフィルタパターンを用いて, LLMと静的解析の組み合わせを評価する実験を複数実施する。
各種のプロンプト戦略下でのスタンドアロン性能に対するこの組み合わせのアプローチを比較し、系統的識別子難読化が分類性能と実行時間に与える影響について検討する。
結果: LLMと軽量な静的解析の組み合わせは驚くほどよく機能し、フィルタパターンによって所要のLLM呼び出しを72.39-97.50%削減する。
これはランタイムを大幅に低下させるだけでなく、F1スコアをベースラインと比較して最大12ポイント(pp)改善する。
異なるプロンプト戦略に関して、文脈内学習には2つの例があるが、これは分類性能と実行効率の効果的なトレードオフであり、F1スコアは75-77%で、推論時間はわずかに増加している。
最後に、LLMは、識別子が難読化されている場合、ほとんどのアルゴリズムの実装を識別できるため、名前情報にのみ依存していないことを発見した。
結論: LLMと静的解析を組み合わせることで,F1スコアを同時に改善しながら,実行時の大幅な削減を実現し,ハイブリッドアプローチの価値を裏付ける。
関連論文リスト
- SCOPE: Tree-based Self-Correcting Online Log Parsing via Syntactic-Semantic Collaboration [3.338964978828878]
SCOPEは、最初の自己修正オンラインログ解析手法である。
LLMベースのパラダイムとLLMベースのパラダイムの長所を統合する。
精度と効率の両方で最先端の手法より優れています。
論文 参考訳(メタデータ) (2026-03-28T11:45:08Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Improve LLM-based Automatic Essay Scoring with Linguistic Features [46.41475844992872]
本稿では,多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発した。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
論文 参考訳(メタデータ) (2025-02-13T17:09:52Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。
本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。
我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文 参考訳(メタデータ) (2024-08-06T07:12:09Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。