論文の概要: CommitBART: A Large Pre-trained Model for GitHub Commits
- arxiv url: http://arxiv.org/abs/2208.08100v1
- Date: Wed, 17 Aug 2022 06:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:16:35.666529
- Title: CommitBART: A Large Pre-trained Model for GitHub Commits
- Title(参考訳): CommitBART: GitHub Commit用の大規模な事前トレーニングモデル
- Authors: Shangqing Liu and Yanzhou Li and Yang Liu
- Abstract要約: 私たちは、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介します。
このモデルは、コミットフラグメント表現を学習するための6つの事前学習タスクに対して、3つのカテゴリ(例えば、目的の認知、クロスモーダル生成、コントラスト学習)で事前訓練される。
これらのタスクの実験では、CommitBARTは以前のトレーニング済みのコードよりも大幅にパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 8.783518592487248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GitHub commits, which record the code changes with natural language messages
for description, play a critical role for software developers to comprehend the
software evolution. To promote the development of the open-source software
community, we collect a commit benchmark including over 7.99 million commits
across 7 programming languages. Based on this benchmark, we present CommitBART,
a large pre-trained encoder-decoder Transformer model for GitHub commits. The
model is pre-trained by three categories (i.e., denoising objectives,
cross-modal generation and contrastive learning) for six pre-training tasks to
learn commit fragment representations. Furthermore, we unify a "commit
intelligence" framework with one understanding task and three generation tasks
for commits. The comprehensive experiments on these tasks demonstrate that
CommitBART significantly outperforms previous pre-trained works for code.
Further analysis also reveals each pre-training task enhances the model
performance. We encourage the follow-up researchers to contribute more
commit-related downstream tasks to our framework in the future.
- Abstract(参考訳): コード変更を自然言語メッセージで記述して記録するGitHubのコミットは、ソフトウェア開発者のソフトウェア進化を理解する上で重要な役割を果たす。
オープンソースソフトウェアコミュニティの発展を促進するため、7つのプログラミング言語で7900万以上のコミットを含むコミットベンチマークを収集しました。
このベンチマークに基づいて、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介する。
このモデルは、コミットフラグメントの表現を学ぶために、6つの事前トレーニングタスクのために、3つのカテゴリ(目標の推論、クロスモーダル生成、コントラスト学習)で事前学習される。
さらに、「コミットインテリジェンス」フレームワークを1つの理解タスクと3つの世代タスクで統合する。
これらのタスクに関する包括的な実験は、CommitBARTが以前のトレーニング済みのコードよりも大幅に優れていることを示している。
さらに分析により、各事前学習タスクがモデル性能を向上させることも明らかにされる。
フォローアップ研究者は将来、よりコミット関連の下流タスクをフレームワークにコントリビュートすることを推奨します。
関連論文リスト
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [83.99011643648038]
私たちは、現実世界のソフトウェアエンジニアリングは、次世代の言語モデルを評価するためのリッチで持続可能で挑戦的なテストベッドであると考えています。
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルの人気のあるPythonリポジトリで対応するプルリクエストを含む、評価フレームワークである。
我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - TransCoder: Towards Unified Transferable Code Representation Learning
Inspired by Human Skills [14.443107383265922]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Unsupervised Learning of General-Purpose Embeddings for Code Changes [6.652641137999891]
事前学習中にコード変更の埋め込みを得る手法を提案する。
コードの変更とコミットメッセージ生成という、2つの異なる下流タスクでそれらを評価します。
本モデルでは,完全編集シーケンスを用いたモデルの精度を5.9ポイント向上させる。
論文 参考訳(メタデータ) (2021-06-03T19:08:53Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。