論文の概要: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
- arxiv url: http://arxiv.org/abs/2506.02073v1
- Date: Mon, 02 Jun 2025 07:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.897794
- Title: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
- Title(参考訳): Flow2Code:フローチャートベースのコード生成機能のための大規模言語モデルの評価
- Authors: Mengliang He, Jiayi Zeng, Yankai Jiang, Wei Zhang, Zeming Liu, Xiaoming Shi, Aimin Zhou,
- Abstract要約: Flow2Codeは、フローチャートベースのコード生成評価のための新しいベンチマークである。
評価は15言語にまたがっており、コード、プログラミング、擬似コードという3つのタイプの16,866のフローチャートに合わせた5,622のコードセグメントを含んでいる。
- 参考スコア(独自算出の注目度): 13.166057918482545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) show promise in code generation, existing benchmarks neglect the flowchart-based code generation. To promote further research on flowchart-based code generation, this work presents Flow2Code, a novel benchmark for flowchart-based code generation evaluation. The evaluation dataset spans 15 programming languages and includes 5,622 code segments paired with 16,866 flowcharts of three types: code, UML, and pseudocode. Extensive experiments with 13 multimodal LLMs reveal that current LLMs can not generate code based on flowcharts perfectly. Besides, experiment results show that the supervised fine-tuning technique contributes greatly to the models' performance. We publicly release our code and datasets at https://github.com/hml-github/Flow2Code.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成の約束を示すが、既存のベンチマークはフローチャートベースのコード生成を無視している。
フローチャートベースのコード生成に関するさらなる研究を促進するために、フローチャートベースのコード生成評価のための新しいベンチマークであるFlow2Codeを紹介する。
評価データセットは15のプログラミング言語にまたがっており、コード、UML、擬似コードという3つのタイプの16,866のフローチャートに合わせた5,622のコードセグメントを含んでいる。
13個のマルチモーダル LLM による大規模な実験により、現在の LLM はフローチャートに基づいてコードを生成することができないことが明らかになった。
さらに,教師付き微調整技術がモデルの性能に大きく貢献することを示す実験結果を得た。
コードとデータセットはhttps://github.com/hml-github/Flow2Codeで公開しています。
関連論文リスト
- CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation [22.74831630054096]
コードフローを実行するLLMの能力を総合的に評価するために設計された最初のベンチマークであるCodeFlowBenchを紹介する。
CodeFlowBenchは、Codeforcesから5,258の問題を発生し、自動パイプラインを通じて継続的に更新される。
16のLLMの大規模な実験により、マルチターンシナリオにおける大幅な性能劣化が明らかになった。
論文 参考訳(メタデータ) (2025-04-30T15:45:28Z) - Towards Making Flowchart Images Machine Interpretable [2.973966315553307]
本稿では,FloCo-T5というトランスフォーマーベースの新しいフレームワークを提案する。
私たちのモデルは、プログラミング言語のセマンティクス、構造、パターンを効果的に学習できるので、このタスクに適しています。
我々は11,884のフローチャートイメージと対応するPythonコードを含むTheFloCoデータセットを紹介した。
論文 参考訳(メタデータ) (2025-01-29T06:43:38Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - CodeJudge: Evaluating Code Generation with Large Language Models [6.867043179943195]
大規模言語モデル(LLM)は、コード生成において有望なパフォーマンスを示している。
LLMが生成したコードを確実に評価する方法は未解決の問題である。
本稿では,LLMを利用したコード評価フレームワークであるCodeJudgeについて,テストケースを必要とせずに生成したコードの意味的正当性を評価する。
論文 参考訳(メタデータ) (2024-10-03T03:58:03Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。
C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文 参考訳(メタデータ) (2021-03-24T06:57:44Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。