論文の概要: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis
- arxiv url: http://arxiv.org/abs/2507.06463v2
- Date: Thu, 28 Aug 2025 14:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.002253
- Title: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis
- Title(参考訳): グラフ解析のためのLLM生成符号の効率性と新規性の評価
- Authors: Atieh Barati Nia, Mohammad Dindoost, David A. Bader,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本稿では、グラフ解析ルーチンの効率的なC実装を生成するLLMの能力について包括的に研究する。
これらのモデルがトランスフォーメーションアルゴリズムテクニックを発明する可能性は、将来の研究にとって魅力的なフロンティアである。
- 参考スコア(独自算出の注目度): 0.1274452325287335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to automate software development, yet most prior evaluations focus on functional correctness or high-level languages such as Python. As one of the first systematic explorations of LLM-assisted software performance engineering, we present a comprehensive study of LLMs' ability to generate efficient C implementations of graph-analysis routines -- code that must satisfy stringent runtime and memory constraints. This emerging field of LLM-assisted algorithm engineering holds significant promise, as these models may possess the capability to design novel approaches that improve existing algorithms and their implementations. Eight state-of-the-art models (OpenAI ChatGPT o3 and o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, and DeepSeek DeepThink R1) are benchmarked using two distinct approaches. The first approach evaluates the ability of LLMs to generate algorithms that outperform existing benchmarks. The second approach assesses their capability to generate graph algorithms for integration into performance-critical systems. The results show that Claude Sonnet 4 Extended achieves superior performance in ready-to-use code generation and efficiency, outperforming human-written baselines in triangle counting. Although our findings demonstrate that contemporary LLMs excel in optimizing and integrating established algorithms, the potential for these models to eventually invent transformative algorithmic techniques represents a compelling frontier for future research. We provide prompts, generated code, and measurement scripts to promote reproducible research in this rapidly evolving domain. All of the source code is available on GitHub at https://github.com/Bader-Research/LLM-triangle-counting/.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア開発の自動化にますます使われていますが、以前の評価では機能的正確性やPythonのようなハイレベルな言語に重点を置いていました。
LLMによるソフトウェアパフォーマンスエンジニアリングの最初の体系的な調査として、LLMがグラフ解析ルーチンの効率的なC実装を生成する能力について包括的な研究を行った。
これらのモデルには、既存のアルゴリズムとその実装を改善する新しいアプローチを設計する能力がある。
8つの最先端モデル (OpenAI ChatGPT o3 と o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, DeepSeek DeepThink R1) を2つの異なるアプローチでベンチマークする。
最初のアプローチでは、LLMが既存のベンチマークを上回るアルゴリズムを生成する能力を評価する。
2つ目のアプローチは、パフォーマンスクリティカルなシステムに統合するためのグラフアルゴリズムを生成する能力を評価する。
以上の結果から,Claude Sonnet 4 Extendedは,有意なコード生成と効率性を実現し,トライアングルカウントにおける人書きベースラインよりも優れていた。
現代のLLMは、確立されたアルゴリズムの最適化と統合に優れており、これらのモデルが最終的に変換アルゴリズムを発明する可能性は、将来の研究にとって魅力的なフロンティアであることを示している。
我々は、この急速に進化する領域における再現可能な研究を促進するために、プロンプト、生成コード、測定スクリプトを提供する。
ソースコードはすべてGitHubでhttps://github.com/Bader-Research/LLM-triangle-counting/で公開されている。
関連論文リスト
- When Do LLMs Help With Node Classification? A Comprehensive Analysis [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のホモ親和性データセット、4つのヘテロ親和性データセット、8つのLLMアルゴリズム、8つの古典的ベースライン、3つの学習パラダイムを含む。
その結果,(1) LLMに基づく手法は, 半教師付き環境では従来手法よりも優れているが, 教師付き環境では優位性が低い, という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - Are Large-Language Models Graph Algorithmic Reasoners? [45.592341677933646]
明示グラフ上の古典的アルゴリズム推論タスクにおいて,LLM(Large Language Models)の性能を評価するために設計されたベンチマークを導入する。
我々のベンチマークは、接続のためのBFS(Breadth-First Search)とDFS(Depth-First Search)、すべてのノードの最短経路に対するDijkstraのアルゴリズムとFloyd-Warshallアルゴリズム、プリムの最小スパンニングツリー(MST-Prim's)アルゴリズムの5つの基本アルゴリズムを含む。
論文 参考訳(メタデータ) (2024-10-29T23:28:37Z) - Can Large Language Models Invent Algorithms to Improve Themselves?: Algorithm Discovery for Recursive Self-Improvement through Reinforcement Learning [3.6117068575553595]
自己開発(Self-Developing)は、大規模言語モデルが独自の改善アルゴリズムを自律的に発見し、実装し、洗練することを可能にするフレームワークである。
モデルマージ(モデルマージ)により、このフレームワークを実証する。
数学的推論のベンチマークでは、自律的に発見されたアルゴリズムは、シードモデルのGSM8kのパフォーマンスを6%改善し、タスク算術のような人間設計のアプローチを4.3%上回った。
論文 参考訳(メタデータ) (2024-10-21T04:57:09Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。