Fugu-MT 論文翻訳(概要): CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

論文の概要: CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

arxiv url: http://arxiv.org/abs/2102.04664v1
Date: Tue, 9 Feb 2021 06:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 15:01:00.951274
Title: CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation
Title（参考訳）: CodeXGLUE: コード理解と生成のための機械学習ベンチマークデータセット
Authors: Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu
Abstract要約: CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。 CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
参考スコア（独自算出の注目度）: 72.90209988513995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmark datasets have a significant impact on accelerating research in programming language tasks. In this paper, we introduce CodeXGLUE, a benchmark dataset to foster machine learning research for program understanding and generation. CodeXGLUE includes a collection of 10 tasks across 14 datasets and a platform for model evaluation and comparison. CodeXGLUE also features three baseline systems, including the BERT-style, GPT-style, and Encoder-Decoder models, to make it easy for researchers to use the platform. The availability of such data and baselines can help the development and validation of new methods that can be applied to various program understanding and generation problems.
Abstract（参考訳）: ベンチマークデータセットは、プログラミング言語タスクの研究の加速に大きな影響を与える。本稿では,プログラム理解と生成のための機械学習研究を促進するためのベンチマークデータセットであるCodeXGLUEを紹介する。 CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。 CodeXGLUEはBERTスタイル、GPTスタイル、Encoder-Decoderモデルを含む3つのベースラインシステムも備えており、研究者がプラットフォームを簡単に利用できるようにしている。このようなデータとベースラインの可用性は、様々なプログラムの理解や生成の問題に適用可能な新しいメソッドの開発と検証に役立つ。

関連論文リスト

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
A Comprehensive Review of State-of-The-Art Methods for Java Code Generation from Natural Language Text [0.0]
本稿では,Javaコード生成タスクにおけるディープラーニングモデルの進化と進展を概観する。我々は,最も重要な手法に焦点を合わせ,そのメリットと限界,およびコミュニティが使用する目的的機能を示す。
論文参考訳（メタデータ） (2023-06-10T07:27:51Z)
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-09T09:35:03Z)
Better Language Models of Code through Self-Improvement [18.75015225501755]
コードのための事前学習言語モデル(PLMC)のための単純なデータ拡張フレームワークを提案する。本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。その結果,コード関連シーケンス生成タスクにおいて,PLMCの性能が大幅に向上することが示唆された。
論文参考訳（メタデータ） (2023-04-02T10:59:19Z)
Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation [10.75138604869187]
ドメイン固有のシナリオでは、直接利用可能なペアデータがないため、コード生成のためにこのような大きなペアコーパスを構築するのは難しい。本稿では,補助タスクとSubtoken-TranXモデルを用いて,ドメイン知識をコード生成モデルに組み込むタスク拡張手法を提案する。実験の結果,サブトークンレベルのTranXモデルは,データセット上でのTranXモデルとTransformerモデルよりも優れていた。
論文参考訳（メタデータ） (2022-08-22T06:57:51Z)
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文参考訳（メタデータ） (2022-06-16T22:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。