Fugu-MT 論文翻訳(概要): Better Language Models of Code through Self-Improvement

論文の概要: Better Language Models of Code through Self-Improvement

arxiv url: http://arxiv.org/abs/2304.01228v2
Date: Wed, 10 May 2023 02:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 16:31:30.554692
Title: Better Language Models of Code through Self-Improvement
Title（参考訳）: 自己改善によるコードの言語モデルの改善
Authors: Hung Quoc To, Nghi D. Q. Bui, Jin Guo, Tien N. Nguyen
Abstract要約: コードのための事前学習言語モデル(PLMC)のための単純なデータ拡張フレームワークを提案する。本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。その結果,コード関連シーケンス生成タスクにおいて,PLMCの性能が大幅に向上することが示唆された。
参考スコア（独自算出の注目度）: 18.75015225501755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models for code (PLMCs) have gained attention in recent research. These models are pre-trained on large-scale datasets using multi-modal objectives. However, fine-tuning them requires extensive supervision and is limited by the size of the dataset provided. We aim to improve this issue by proposing a simple data augmentation framework. Our framework utilizes knowledge gained during the pre-training and fine-tuning stage to generate pseudo data, which is then used as training data for the next step. We incorporate this framework into the state-of-the-art language models, such as CodeT5, CodeBERT, and UnixCoder. The results show that our framework significantly improves PLMCs' performance in code-related sequence generation tasks, such as code summarization and code generation in the CodeXGLUE benchmark.
Abstract（参考訳）: 近年,コードのための事前学習言語モデル (PLMC) が注目されている。これらのモデルは、マルチモーダルな目的を用いて、大規模データセット上で事前訓練される。しかしながら、細かなチューニングには広範な監視が必要であり、提供されるデータセットのサイズによって制限される。我々は、単純なデータ拡張フレームワークを提案し、この問題を改善することを目指している。本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。私たちはこのフレームワークを、CodeT5、CodeBERT、UnixCoderといった最先端の言語モデルに組み入れています。その結果,コード要約やコード生成などのコード関連シーケンス生成タスクにおけるPLMCの性能は,CodeXGLUEベンチマークで大幅に向上した。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
Seed-Coder: Let the Code Model Curate Data for Itself [41.69830870792126]
8Bサイズの一連のオープンソースモデルであるSeed-Coderを紹介します。我々のコードはモデル中心のデータパイプラインによって生成される。 Seed-Coderは、同じサイズのオープンソースモデルの中で最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-04T03:17:19Z)
RETROcode: Leveraging a Code Database for Improved Natural Language to Code Generation [10.19019476978683]
本稿では,シーケンス・ツー・シーケンス・モデルに対するRETROアーキテクチャの新たな適応であるRETROcodeを提案する。以上の結果から,RETROcode はテストセット上での類似サイズの従来型アーキテクチャよりも優れるだけでなく,はるかに大きな Codex モデルの有効性にもアプローチすることが示唆された。
論文参考訳（メタデータ） (2025-04-08T07:41:13Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
Large Language Model for Verilog Generation with Code-Structure-Guided Reinforcement Learning [29.135207235743795]
本稿では、強化学習によって強化されたLLMであるVeriSeekを紹介し、高いVerilogコード生成性能を実現する。我々の強化学習アプローチでは、事前学習されたモデルを洗練するためのフィードバック信号として、コード構造情報を用いる。実験によると、VeriSeekは複数のベンチマークで最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-07-21T11:25:21Z)
Collaborative decoding of critical tokens for boosting factuality of large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文参考訳（メタデータ） (2024-02-28T01:53:37Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.459517921633247]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (2023-07-27T15:28:29Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。この問題は、長文生成のための言語モデリングにも見られる。本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文参考訳（メタデータ） (2023-04-14T00:01:05Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation [10.75138604869187]
ドメイン固有のシナリオでは、直接利用可能なペアデータがないため、コード生成のためにこのような大きなペアコーパスを構築するのは難しい。本稿では,補助タスクとSubtoken-TranXモデルを用いて,ドメイン知識をコード生成モデルに組み込むタスク拡張手法を提案する。実験の結果,サブトークンレベルのTranXモデルは,データセット上でのTranXモデルとTransformerモデルよりも優れていた。
論文参考訳（メタデータ） (2022-08-22T06:57:51Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。