Fugu-MT 論文翻訳(概要): Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis

論文の概要: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis

arxiv url: http://arxiv.org/abs/2507.06463v1
Date: Wed, 09 Jul 2025 00:46:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.427672
Title: Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis
Title（参考訳）: グラフ解析のためのLLM生成符号の効率性と新規性の評価
Authors: Atieh Barati Nia, Mohammad Dindoost, David A. Bader,
Abstract要約: 本稿では,グラフ解析ルーチンの効率的なC実装を生成するための大規模言語モデルの能力について,最初の体系的研究を行う。 8つの最先端モデルがベンチマークされる。結果から,Claude Sonnet 4 Extendedはコード生成と効率性において最高の結果が得られることがわかった。
参考スコア（独自算出の注目度）: 0.40964539027092917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used to automate software development, yet most prior evaluations focus on functional correctness or high-level languages such as Python. We present the first systematic study of LLMs' ability to generate efficient C implementations of graph-analysis routines--code that must satisfy the stringent runtime and memory constraints. Eight state-of-the-art models (OpenAI ChatGPT o3 and o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, and DeepSeek DeepThink R1) are benchmarked by two distinct approaches. The first approach checks the ability of LLMs in generating an algorithm outperforming other present algorithms in the benchmark. The second approach evaluates the ability of LLMs to generate graph algorithms for integration into the benchmark. Results show that Claude Sonnet 4 Extended achieves the best result in the case of ready-to-use code generation and efficiency, outperforming human-written baselines in triangle counting. The study confirms that contemporary LLMs excel at optimizing and integrating established algorithms but not inventing novel techniques. We provide prompts, the first approach's generated code, and measurement scripts to foster reproducible research.
Abstract（参考訳）: 大規模言語モデル(LLM)はソフトウェア開発の自動化にますます使われていますが、以前の評価では機能的正確性やPythonのようなハイレベルな言語に重点を置いていました。本稿では,LLMがグラフ解析ルーチンの効率的なC実装を生成する能力について,初めて体系的に検討する。 8つの最先端モデル (OpenAI ChatGPT o3 と o4-mini-high, Anthropic Claude 4 Sonnet and Sonnet Extended, Google Gemini 2.5 Flash and Pro, xAI Grok 3-Think, DeepSeek DeepThink R1) は2つの異なるアプローチでベンチマークされている。最初のアプローチは、ベンチマークで現在あるアルゴリズムよりも優れたアルゴリズムを生成するためのLLMの能力をチェックする。 2つ目のアプローチは、LLMがベンチマークに統合するためのグラフアルゴリズムを生成する能力を評価する。以上の結果から,Claude Sonnet 4 Extendedは,コード生成と効率性が向上し,トライアングルカウントにおいて人書きベースラインよりも優れていたことが示唆された。この研究は、現代のLLMが確立されたアルゴリズムの最適化と統合に優れているが、新しい手法を発明していないことを裏付けている。我々は、再現可能な研究を促進するためのプロンプト、最初のアプローチで生成されたコード、測定スクリプトを提供する。

関連論文リスト

When Do LLMs Help With Node Classification? A Comprehensive Analysis [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のホモ親和性データセット、4つのヘテロ親和性データセット、8つのLLMアルゴリズム、8つの古典的ベースライン、3つの学習パラダイムを含む。その結果,(1) LLMに基づく手法は, 半教師付き環境では従来手法よりも優れているが, 教師付き環境では優位性が低い, という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
Are Large-Language Models Graph Algorithmic Reasoners? [45.592341677933646]
明示グラフ上の古典的アルゴリズム推論タスクにおいて,LLM(Large Language Models)の性能を評価するために設計されたベンチマークを導入する。我々のベンチマークは、接続のためのBFS(Breadth-First Search)とDFS(Depth-First Search)、すべてのノードの最短経路に対するDijkstraのアルゴリズムとFloyd-Warshallアルゴリズム、プリムの最小スパンニングツリー(MST-Prim's)アルゴリズムの5つの基本アルゴリズムを含む。
論文参考訳（メタデータ） (2024-10-29T23:28:37Z)
Can Large Language Models Invent Algorithms to Improve Themselves?: Algorithm Discovery for Recursive Self-Improvement through Reinforcement Learning [3.6117068575553595]
自己開発(Self-Developing)は、大規模言語モデルが独自の改善アルゴリズムを自律的に発見し、実装し、洗練することを可能にするフレームワークである。モデルマージ(モデルマージ)により、このフレームワークを実証する。数学的推論のベンチマークでは、自律的に発見されたアルゴリズムは、シードモデルのGSM8kのパフォーマンスを6%改善し、タスク算術のような人間設計のアプローチを4.3%上回った。
論文参考訳（メタデータ） (2024-10-21T04:57:09Z)
RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (2024-08-21T07:20:48Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文参考訳（メタデータ） (2024-06-24T17:45:59Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文参考訳（メタデータ） (2023-08-20T22:36:23Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。