論文の概要: Coding Triangle: How Does Large Language Model Understand Code?
- arxiv url: http://arxiv.org/abs/2507.06138v1
- Date: Tue, 08 Jul 2025 16:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.339519
- Title: Coding Triangle: How Does Large Language Model Understand Code?
- Title(参考訳): コーディングトライアングル: 大規模言語モデルはどのようにコードを理解するか?
- Authors: Taolin Zhang, Zihan Ma, Maosong Cao, Junnan Liu, Songyang Zhang, Kai Chen,
- Abstract要約: 大規模言語モデル (LLM) はコード生成において顕著な進歩を遂げているが、真のプログラミング能力は未解明のままである。
本稿では,3つの基本的な側面(編集解析,コード実装,テストケース生成)にまたがってLLMを体系的に評価するCode Triangleフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 33.42334127806147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in code generation, yet their true programming competence remains underexplored. We introduce the Code Triangle framework, which systematically evaluates LLMs across three fundamental dimensions: editorial analysis, code implementation, and test case generation. Through extensive experiments on competitive programming benchmarks, we reveal that while LLMs can form a self-consistent system across these dimensions, their solutions often lack the diversity and robustness of human programmers. We identify a significant distribution shift between model cognition and human expertise, with model errors tending to cluster due to training data biases and limited reasoning transfer. Our study demonstrates that incorporating human-generated editorials, solutions, and diverse test cases, as well as leveraging model mixtures, can substantially enhance both the performance and robustness of LLMs. Furthermore, we reveal both the consistency and inconsistency in the cognition of LLMs that may facilitate self-reflection and self-improvement, providing a potential direction for developing more powerful coding models.
- Abstract(参考訳): 大規模言語モデル (LLM) はコード生成において顕著な進歩を遂げているが、真のプログラミング能力は未解明のままである。
本稿では,3つの基本的な側面(編集解析,コード実装,テストケース生成)にまたがってLLMを体系的に評価するCode Triangleフレームワークを紹介する。
競合プログラミングベンチマークに関する広範な実験を通して、LLMはこれらの次元にわたって自己整合システムを形成することができるが、それらのソリューションは人間のプログラマの多様性と堅牢性を欠いていることが判明した。
モデル認識と人間の専門知識の間には,トレーニングデータバイアスと限定的推論伝達により,モデルエラーがクラスタ化される傾向がある。
本研究は, 人為的な編集, 解法, 多様なテストケースを組み込むことにより, LLMの性能と堅牢性を大幅に向上させることができることを示す。
さらに,LLMの認識における一貫性と一貫性の両立を明らかにし,自己回帰と自己改善を促進し,より強力な符号化モデルを開発するための潜在的方向性を提供する。
関連論文リスト
- CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Large Language Models for Code Generation: The Practitioners Perspective [4.946128083535776]
大きな言語モデル(LLM)は、自然言語のプロンプトからソースコードを生成することができるコーディングアシスタントとして登場した。
自然言語のプロンプトに基づいてコードを生成し,実行するための多モデル統合プラットフォームを提案し,開発する。
我々は4大陸11カ国から60人のソフトウェア実践者を対象に,各モデルのユーザビリティ,パフォーマンス,強み,限界を評価する調査を行った。
論文 参考訳(メタデータ) (2025-01-28T14:52:16Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。