Fugu-MT 論文翻訳(概要): CompCodeVet: A Compiler-guided Validation and Enhancement Approach for Code Dataset

論文の概要: CompCodeVet: A Compiler-guided Validation and Enhancement Approach for Code Dataset

arxiv url: http://arxiv.org/abs/2311.06505v1
Date: Sat, 11 Nov 2023 08:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 18:23:21.229704
Title: CompCodeVet: A Compiler-guided Validation and Enhancement Approach for Code Dataset
Title（参考訳）: CompCodeVet: コードデータセットに対するコンパイラ誘導検証と拡張アプローチ
Authors: Le Chen, Arijit Bhattacharjee, Nesreen K. Ahmed, Niranjan Hasabnis, Gal Oren, Bin Lei, Ali Jannesari
Abstract要約: 数十億のパラメータを持つモデルでさえ、多段階の推論を必要とするタスクの課題に直面します。 CompCodeVetはコンパイル不能なコードからコンパイル可能なコードを生成するためのコンパイラ誘導のCoTアプローチである。
参考スコア（独自算出の注目度）: 12.58750209611099
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have become increasingly prominent in academia and industry due to their remarkable performance in diverse applications. As these models evolve with increasing parameters, they excel in tasks like sentiment analysis and machine translation. However, even models with billions of parameters face challenges in tasks demanding multi-step reasoning. Code generation and comprehension, especially in C and C++, emerge as significant challenges. While LLMs trained on code datasets demonstrate competence in many tasks, they struggle with rectifying non-compilable C and C++ code. Our investigation attributes this subpar performance to two primary factors: the quality of the training dataset and the inherent complexity of the problem which demands intricate reasoning. Existing "Chain of Thought" (CoT) prompting techniques aim to enhance multi-step reasoning. This approach, however, retains the limitations associated with the latent drawbacks of LLMs. In this work, we propose CompCodeVet, a compiler-guided CoT approach to produce compilable code from non-compilable ones. Diverging from the conventional approach of utilizing larger LLMs, we employ compilers as a teacher to establish a more robust zero-shot thought process. The evaluation of CompCodeVet on two open-source code datasets shows that CompCodeVet has the ability to improve the training dataset quality for LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な性能を持つため、学術や産業でますます顕著になっている。これらのモデルがパラメータの増加とともに進化するにつれて、感情分析や機械翻訳といったタスクに優れている。しかし、数十億のパラメータを持つモデルでさえ、マルチステップ推論を必要とするタスクの課題に直面している。コード生成と理解、特にCとC++は、大きな課題として現れます。コードデータセットでトレーニングされたLLMは、多くのタスクで能力を示すが、コンパイル不可能なCとC++のコードの修正に苦労している。当社の調査では,この部分的なパフォーマンスを,トレーニングデータセットの品質と,複雑な推論を必要とする問題の固有の複雑性という,2つの主要な要因に当てはめています。既存の"Chain of Thought"(CoT)促進技術は、多段階推論を強化することを目的としている。しかし、このアプローチはLLMの潜在的な欠点に関連する制限を保っている。本研究では,コンパイル不能なコードからコンパイル可能なコードを生成するコンパイラ誘導型CoTアプローチであるCompCodeVetを提案する。より大規模なLLMを利用する従来のアプローチとは違い,より堅牢なゼロショット思考プロセスを確立するために,コンパイラを教師として採用している。 2つのオープンソースコードデータセットに対するCompCodeVetの評価は、CompCodeVetがLLMのトレーニングデータセット品質を改善する能力を持っていることを示している。

関連論文リスト

Seed-Coder: Let the Code Model Curate Data for Itself [41.69830870792126]
8Bサイズの一連のオープンソースモデルであるSeed-Coderを紹介します。我々のコードはモデル中心のデータパイプラインによって生成される。 Seed-Coderは、同じサイズのオープンソースモデルの中で最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-04T03:17:19Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
Pseudocode-Injection Magic: Enabling LLMs to Tackle Graph Computational Tasks [15.69049038121735]
グラフ計算タスクは本質的に困難であり、しばしば効率的な解に対する高度なアルゴリズムを要求する。既存のアプローチは、複雑なグラフ構造を理解するための大きな言語モデルの制限された能力によって制約される。問題理解,迅速な設計,コード生成という3つの重要なステップから構成される新しいフレームワークであるPIEを紹介する。
論文参考訳（メタデータ） (2025-01-23T15:04:22Z)
CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt [3.2047924365529026]
本稿では,テキスト分類問題をコード補完タスクに変換するCode Completion Prompt (CoCoP)法を提案する。 CoCoPは、LLMのコード補完機能を利用することで、多様なデータセット間でのテキスト分類性能を大幅に改善する。
論文参考訳（メタデータ） (2024-11-13T19:12:02Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。 CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文参考訳（メタデータ） (2024-10-16T20:05:59Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Case2Code: Learning Inductive Reasoning with Synthetic Data [105.89741089673575]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。