論文の概要: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis
- arxiv url: http://arxiv.org/abs/2507.06463v1
- Date: Wed, 09 Jul 2025 00:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.427672
- Title: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis
- Title(参考訳): グラフ解析のためのLLM生成符号の効率性と新規性の評価
- Authors: Atieh Barati Nia, Mohammad Dindoost, David A. Bader,
- Abstract要約: 本稿では,グラフ解析ルーチンの効率的なC実装を生成するための大規模言語モデルの能力について,最初の体系的研究を行う。
8つの最先端モデルがベンチマークされる。
結果から,Claude Sonnet 4 Extendedはコード生成と効率性において最高の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to automate software development, yet most prior evaluations focus on functional correctness or high-level languages such as Python. We present the first systematic study of LLMs' ability to generate efficient C implementations of graph-analysis routines--code that must satisfy the stringent runtime and memory constraints. Eight state-of-the-art models (OpenAI ChatGPT o3 and o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, and DeepSeek DeepThink R1) are benchmarked by two distinct approaches. The first approach checks the ability of LLMs in generating an algorithm outperforming other present algorithms in the benchmark. The second approach evaluates the ability of LLMs to generate graph algorithms for integration into the benchmark. Results show that Claude Sonnet 4 Extended achieves the best result in the case of ready-to-use code generation and efficiency, outperforming human-written baselines in triangle counting. The study confirms that contemporary LLMs excel at optimizing and integrating established algorithms but not inventing novel techniques. We provide prompts, the first approach's generated code, and measurement scripts to foster reproducible research.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア開発の自動化にますます使われていますが、以前の評価では機能的正確性やPythonのようなハイレベルな言語に重点を置いていました。
本稿では,LLMがグラフ解析ルーチンの効率的なC実装を生成する能力について,初めて体系的に検討する。
8つの最先端モデル (OpenAI ChatGPT o3 と o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, DeepSeek DeepThink R1) は2つの異なるアプローチでベンチマークされている。
最初のアプローチは、ベンチマークで現在あるアルゴリズムよりも優れたアルゴリズムを生成するためのLLMの能力をチェックする。
2つ目のアプローチは、LLMがベンチマークに統合するためのグラフアルゴリズムを生成する能力を評価する。
以上の結果から,Claude Sonnet 4 Extendedは,コード生成と効率性が向上し,トライアングルカウントにおいて人書きベースラインよりも優れていたことが示唆された。
この研究は、現代のLLMが確立されたアルゴリズムの最適化と統合に優れているが、新しい手法を発明していないことを裏付けている。
我々は、再現可能な研究を促進するためのプロンプト、最初のアプローチで生成されたコード、測定スクリプトを提供する。
関連論文リスト
- When Do LLMs Help With Node Classification? A Comprehensive Analysis [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のホモ親和性データセット、4つのヘテロ親和性データセット、8つのLLMアルゴリズム、8つの古典的ベースライン、3つの学習パラダイムを含む。
その結果,(1) LLMに基づく手法は, 半教師付き環境では従来手法よりも優れているが, 教師付き環境では優位性が低い, という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - Are Large-Language Models Graph Algorithmic Reasoners? [45.592341677933646]
明示グラフ上の古典的アルゴリズム推論タスクにおいて,LLM(Large Language Models)の性能を評価するために設計されたベンチマークを導入する。
我々のベンチマークは、接続のためのBFS(Breadth-First Search)とDFS(Depth-First Search)、すべてのノードの最短経路に対するDijkstraのアルゴリズムとFloyd-Warshallアルゴリズム、プリムの最小スパンニングツリー(MST-Prim's)アルゴリズムの5つの基本アルゴリズムを含む。
論文 参考訳(メタデータ) (2024-10-29T23:28:37Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。