Fugu-MT 論文翻訳(概要): CoCoNUT: Structural Code Understanding does not fall out of a tree

論文の概要: CoCoNUT: Structural Code Understanding does not fall out of a tree

arxiv url: http://arxiv.org/abs/2501.16456v1
Date: Mon, 27 Jan 2025 19:29:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.951047
Title: CoCoNUT: Structural Code Understanding does not fall out of a tree
Title（参考訳）: CoCoNUT: 構造的コード理解は木から落ちない
Authors: Claas Beger, Saikat Dutta,
Abstract要約: 大規模言語モデル(LLM)は、構造化されたデータと非構造化されたテキストデータの両方を含む幅広いタスクにおいて、印象的なパフォーマンスを示している。コード生成、修復、あるいは補完のための様々なベンチマークの最近の結果は、あるモデルが人間に匹敵するプログラミング能力を持っていることを示唆している。このようなベンチマークにおけるハイパフォーマンスは、コードの構造的制御フローを理解する人間固有の能力と相関しないことを示す。
参考スコア（独自算出の注目度）: 4.081759833067852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown impressive performance across a wide array of tasks involving both structured and unstructured textual data. Recent results on various benchmarks for code generation, repair, or completion suggest that certain models have programming abilities comparable to or even surpass humans. In this work, we demonstrate that high performance on such benchmarks does not correlate to humans' innate ability to understand structural control flow in code. To this end, we extract solutions from the HumanEval benchmark, which the relevant models perform strongly on, and trace their execution path using function calls sampled from the respective test set. Using this dataset, we investigate the ability of seven state-of-the-art LLMs to match the execution trace and find that, despite their ability to generate semantically identical code, they possess limited ability to trace execution paths, especially for longer traces and specific control structures. We find that even the top-performing model, Gemini, can fully and correctly generate only 47% of HumanEval task traces. Additionally, we introduce a subset for three key structures not contained in HumanEval: Recursion, Parallel Processing, and Object-Oriented Programming, including concepts like Inheritance and Polymorphism. Besides OOP, we show that none of the investigated models achieve an accuracy over 5% on the relevant traces. Aggregating these specialized parts with HumanEval tasks, we present Benchmark CoCoNUT: Code Control Flow for Navigation Understanding and Testing, which measures a model's ability to trace execution of code upon relevant calls, including advanced structural components. We conclude that current LLMs need significant improvement to enhance code reasoning abilities. We hope our dataset helps researchers bridge this gap.
Abstract（参考訳）: 大規模言語モデル(LLM)は、構造化されたデータと非構造化されたテキストデータの両方を含む幅広いタスクにおいて、印象的なパフォーマンスを示している。コード生成、修復、あるいは補完のための様々なベンチマークの最近の結果は、あるモデルが人間に匹敵するプログラミング能力を持っていることを示唆している。本研究では,このようなベンチマークにおけるハイパフォーマンスは,コードの構造制御フローを理解する能力と相関しないことを示す。この目的のために、関連するモデルが強く依存するHumanEvalベンチマークから解を抽出し、各テストセットからサンプリングされた関数呼び出しを用いて実行経路をトレースする。このデータセットを用いて、7つの最先端のLLMが実行トレースと一致し、意味的に同一のコードを生成する能力があるにもかかわらず、特に長いトレースや特定の制御構造において、実行パスをトレースする能力に制限があることが分かった。トップパフォーマンスモデルであるGeminiでさえ、HumanEvalタスクトレースの47%を完全かつ正確に生成できることに気付きました。さらに、HumanEvalには含まれない3つのキー構造(再帰、並列処理、オブジェクト指向プログラミング)に対するサブセットを導入します。 OOP以外にも、調査対象のモデルでは、関連するトレースに対して5%以上の精度が得られないことが示されています。我々は、HumanEvalタスクでこれらの特別な部分を集約し、Benchmark CoCoNUT: Code Control Flow for Navigation Understanding and Testingを提示する。現在のLLMは、コード推論能力を向上させるために大幅な改善が必要であると結論付けている。私たちのデータセットがこのギャップを埋めるのに役立つことを願っています。

関連論文リスト

CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文参考訳（メタデータ） (2025-07-03T01:35:58Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
Large Language Models as Realistic Microservice Trace Generators [54.85489678342595]
ワークロードトレースは、複雑なコンピュータシステムの振る舞いを理解し、処理とメモリリソースを管理するために不可欠である。本稿では,大規模言語モデルを用いて合成ワークロードトレースを生成する手法を提案する。我々のモデルは、キートレースの特徴を予測したり、欠落したデータを埋め込んだりといった、下流のトレース関連タスクに適応する。
論文参考訳（メタデータ） (2024-12-16T12:48:04Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks [10.867880635762395]
Instructive Code Retriever (ICR) という新しいアプローチを導入する。 ICRは、さまざまなコードインテリジェンスタスクやデータセットにわたるモデル推論を強化するサンプルを取得するように設計されている。我々は,コード要約,プログラム合成,バグ修正など,様々なタスクにおけるモデルの有効性を評価する。
論文参考訳（メタデータ） (2024-10-15T05:44:00Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis [29.667170755786508]
大規模言語モデルの能力を評価するためのベンチマークであるEVALを紹介する。我々は,マルチエージェントシステムを用いて高品質な学習データを生成する,コミュニケーティブエージェントベースのデータ合成フレームワークを提案する。以上の結果から,COAST生成データは人為的・GPT-4生成データよりも優れていた。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
CompCodeVet: A Compiler-guided Validation and Enhancement Approach for Code Dataset [12.58750209611099]
数十億のパラメータを持つモデルでさえ、多段階の推論を必要とするタスクの課題に直面します。 CompCodeVetはコンパイル不能なコードからコンパイル可能なコードを生成するためのコンパイラ誘導のCoTアプローチである。
論文参考訳（メタデータ） (2023-11-11T08:21:52Z)
CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文参考訳（メタデータ） (2023-08-17T04:58:51Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。