論文の概要: CommitBART: A Large Pre-trained Model for GitHub Commits
- arxiv url: http://arxiv.org/abs/2208.08100v1
- Date: Wed, 17 Aug 2022 06:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:16:35.666529
- Title: CommitBART: A Large Pre-trained Model for GitHub Commits
- Title(参考訳): CommitBART: GitHub Commit用の大規模な事前トレーニングモデル
- Authors: Shangqing Liu and Yanzhou Li and Yang Liu
- Abstract要約: 私たちは、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介します。
このモデルは、コミットフラグメント表現を学習するための6つの事前学習タスクに対して、3つのカテゴリ(例えば、目的の認知、クロスモーダル生成、コントラスト学習)で事前訓練される。
これらのタスクの実験では、CommitBARTは以前のトレーニング済みのコードよりも大幅にパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 8.783518592487248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GitHub commits, which record the code changes with natural language messages
for description, play a critical role for software developers to comprehend the
software evolution. To promote the development of the open-source software
community, we collect a commit benchmark including over 7.99 million commits
across 7 programming languages. Based on this benchmark, we present CommitBART,
a large pre-trained encoder-decoder Transformer model for GitHub commits. The
model is pre-trained by three categories (i.e., denoising objectives,
cross-modal generation and contrastive learning) for six pre-training tasks to
learn commit fragment representations. Furthermore, we unify a "commit
intelligence" framework with one understanding task and three generation tasks
for commits. The comprehensive experiments on these tasks demonstrate that
CommitBART significantly outperforms previous pre-trained works for code.
Further analysis also reveals each pre-training task enhances the model
performance. We encourage the follow-up researchers to contribute more
commit-related downstream tasks to our framework in the future.
- Abstract(参考訳): コード変更を自然言語メッセージで記述して記録するGitHubのコミットは、ソフトウェア開発者のソフトウェア進化を理解する上で重要な役割を果たす。
オープンソースソフトウェアコミュニティの発展を促進するため、7つのプログラミング言語で7900万以上のコミットを含むコミットベンチマークを収集しました。
このベンチマークに基づいて、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介する。
このモデルは、コミットフラグメントの表現を学ぶために、6つの事前トレーニングタスクのために、3つのカテゴリ(目標の推論、クロスモーダル生成、コントラスト学習)で事前学習される。
さらに、「コミットインテリジェンス」フレームワークを1つの理解タスクと3つの世代タスクで統合する。
これらのタスクに関する包括的な実験は、CommitBARTが以前のトレーニング済みのコードよりも大幅に優れていることを示している。
さらに分析により、各事前学習タスクがモデル性能を向上させることも明らかにされる。
フォローアップ研究者は将来、よりコミット関連の下流タスクをフレームワークにコントリビュートすることを推奨します。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Enhancing MBSE Education with Version Control and Automated Feedback [0.10499611180329801]
本稿では,モデルベースシステム工学(MBSE)コースを毎年80名を超える参加者で実施するための革新的なアプローチを提案する。
このコースは、学生がEnterprise Architectを使って6つのサブミッションで複雑なシステムエンジニアリングタスクを完了する、協調的なグループ割り当てを中心に構成されている。
今年は、LemonTree、SmartGit、GitHubなど、学習エクスペリエンスを向上させるためのいくつかの技術的進歩を紹介しました。
論文 参考訳(メタデータ) (2024-09-04T08:12:57Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - RoboCoder: Robotic Learning from Basic Skills to General Tasks with Large Language Models [49.23588578549434]
大規模言語モデル(LLM)はロボットタスクの見通しを改善した。
既存のベンチマークはまだ、一般化機能に制限のある単一のタスクに限られている。
包括的なベンチマークと自律学習フレームワークであるRoboCoderを紹介します。
論文 参考訳(メタデータ) (2024-06-06T05:41:47Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Unsupervised Learning of General-Purpose Embeddings for Code Changes [6.652641137999891]
事前学習中にコード変更の埋め込みを得る手法を提案する。
コードの変更とコミットメッセージ生成という、2つの異なる下流タスクでそれらを評価します。
本モデルでは,完全編集シーケンスを用いたモデルの精度を5.9ポイント向上させる。
論文 参考訳(メタデータ) (2021-06-03T19:08:53Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。