Fugu-MT 論文翻訳(概要): Knowledge-Aware Code Generation with Large Language Models

論文の概要: Knowledge-Aware Code Generation with Large Language Models

arxiv url: http://arxiv.org/abs/2401.15940v3
Date: Thu, 1 Feb 2024 06:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 11:49:18.527163
Title: Knowledge-Aware Code Generation with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた知識認識コード生成
Authors: Tao Huang, Zhihong Sun, Zhi Jin, Ge Li, Chen Lyu
Abstract要約: 大規模言語モデル(LLM)は、基本的なプログラミング問題においてよく機能する。しかし、多様なアルゴリズムとデータ構造スキルの使用を含む複雑なタスクを扱う場合、課題に直面する。我々はPythonプログラミングのコンテスト問題に適した知識ライブラリを開発し,知識認識コード生成の概念を紹介した。
参考スコア（独自算出の注目度）: 34.806454393643236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) perform well on basic programming problems. However, they encounter challenges when dealing with complex tasks involving the use of diverse algorithmic and data structure skills, particularly programming competition-level problems. Notably, ChatGPT exhibits proficient performance on problems it has encountered during its pre-training phase, but this performance deteriorates when faced with novel problems. Consequently, enhancing the ability of LLMs to address unfamiliar problems has emerged as a pivotal research focus. The problem-solving process of LLMs mirrors human programmers' approach to a certain extent. When confronted with new programming tasks, human programmers engage in task planning and code writing with the previously acquired knowledge about algorithms and data structures. Despite having learned such knowledge, LLMs struggle to effectively apply it when faced with specific new problems. To address this issue, we constructed a novel dataset, CodeF, which contains a portion of programming problems that ChatGPT has not previously encountered. Furthermore, we developed a Knowledge Library tailored for Python programming contest problems and introduced the concept of Knowledge-Aware Code Generation (KareCoder). KareCoder bolsters the models' understanding and problem-solving capabilities by integrating prompt and knowledge from the library into the LLMs' code generation reasoning process, especially on Pass@1 metrics. Upon testing on the CodeF and APPS datasets, KareCoder demonstrated outstanding performance in handling novel problems previously unencountered by LLMs. In contrast with the code directly generated by ChatGPT, KareCoder achieved a relative improvement of 23.3% on the Pass@1 metric on the CodeF post2021-9 dataset. Additionally, it performs well compared to other methods when dealing with problems that LLMs have previously encountered.
Abstract（参考訳）: 大規模言語モデル(llm)は、基本的なプログラミング問題でうまく機能する。しかし、多種多様なアルゴリズムとデータ構造スキル、特に競合レベルの問題を使用する複雑なタスクを扱う際には、問題が発生する。特にChatGPTは、トレーニング前の段階で遭遇した問題に対して熟練した性能を示すが、この性能は、新しい問題に直面したときに低下する。その結果,不慣れな問題に対するllmの能力向上が重要な研究課題となっている。 LLMの問題解決プロセスは、人間のプログラマのアプローチをある程度反映している。新しいプログラミングタスクに直面すると、人間のプログラマは、以前取得したアルゴリズムやデータ構造に関する知識とタスク計画とコード記述に従事します。このような知識を習得したにもかかわらず、LSMは特定の新しい問題に直面したときに効果的にそれを適用するのに苦労している。この問題に対処するため、我々はChatGPTがこれまで遭遇していなかったプログラミング問題の一部を含む新しいデータセット、CodeFを構築した。さらに,Pythonプログラミングコンテスト問題に適した知識ライブラリを開発し,Knowledge-Aware Code Generation(KareCoder)の概念を導入した。 KareCoderは、ライブラリからのプロンプトと知識をLLMのコード生成推論プロセス、特にPass@1メトリクスに統合することで、モデルの理解と問題解決能力を強化する。 CodeF と APPS のデータセットをテストすると、KareCoder は LLM によって説明されていない新しい問題に対処する際、優れた性能を示した。 ChatGPTが直接生成したコードとは対照的に、KareCoderはCodeF post2021-9データセットのPass@1メトリックで23.3%の相対的な改善を達成した。加えて、LLMがこれまで遭遇した問題に対処する場合、他の手法と比較してよく機能する。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文参考訳（メタデータ） (2025-08-01T15:17:34Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
Resolving Editing-Unlearning Conflicts: A Knowledge Codebook Framework for Large Language Model Updating [61.70705744491162]
大きな言語モデル(LLM)は、人間の知識を符号化することで自然言語処理に優れる。 LLMの更新には、不要な知識を取り除くための学習と、新しい情報を統合するための編集という、2つの重要なタスクが同時に行われる。知識コードブックに基づく LLM 更新のためのコンフリクトフリーフレームワーク Loka を提案する。
論文参考訳（メタデータ） (2025-01-31T20:48:46Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。 BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文参考訳（メタデータ） (2024-07-06T17:01:04Z)
Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文参考訳（メタデータ） (2024-05-31T22:06:18Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions [2.377308748205625]
我々は,LLMが生成したコードから生成されたQLCに応答する,最先端のLCMの能力について検討する。この結果から,現在最先端のLCMではプログラム作成やプログラム実行の追跡が可能であるが,初心者プログラマが記録した類似のエラーに容易に対応できることが示唆された。
論文参考訳（メタデータ） (2024-04-17T20:37:00Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文参考訳（メタデータ） (2023-10-10T14:56:26Z)
Exploring the Robustness of Large Language Models for Solving Programming Problems [15.80687717725775]
我々は、ソースコード生成のためのいくつかの人気のある大規模言語モデル(LLM)の堅牢性を理解するために実験を行う。以上の結果から,CodeGenとCodexは問題記述の表面的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことが示された。 InstructGPT(英語版)やChatGPT(英語版)のような最先端のSOTA(英語版)モデルは、表面的な修正に対して高い堅牢性を示し、プログラミング問題の解決に優れた能力を持っている。
論文参考訳（メタデータ） (2023-06-26T10:48:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。