論文の概要: CommitBERT: Commit Message Generation Using Pre-Trained Programming
Language Model
- arxiv url: http://arxiv.org/abs/2105.14242v1
- Date: Sat, 29 May 2021 07:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:23:51.124862
- Title: CommitBERT: Commit Message Generation Using Pre-Trained Programming
Language Model
- Title(参考訳): CommitBERT: 事前学習型プログラミング言語モデルを用いたコミットメッセージ生成
- Authors: Tae-Hwan Jung
- Abstract要約: コミットメッセージ(Commit message)は、自然言語でソースコードの変更を要約する文書である。
我々はコミットメッセージを自動的に書き込むモデルを開発する。
コード修正とコミットメッセージからなる345Kデータセットを6つのプログラミング言語でリリースします。
- 参考スコア(独自算出の注目度): 0.38073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commit message is a document that summarizes source code changes in natural
language. A good commit message clearly shows the source code changes, so this
enhances collaboration between developers. Therefore, our work is to develop a
model that automatically writes the commit message.
To this end, we release 345K datasets consisting of code modification and
commit messages in six programming languages (Python, PHP, Go, Java,
JavaScript, and Ruby). Similar to the neural machine translation (NMT) model,
using our dataset, we feed the code modification to the encoder input and the
commit message to the decoder input and measure the result of the generated
commit message with BLEU-4.
Also, we propose the following two training methods to improve the result of
generating the commit message: (1) A method of preprocessing the input to feed
the code modification to the encoder input. (2) A method that uses an initial
weight suitable for the code domain to reduce the gap in contextual
representation between programming language (PL) and natural language (NL).
Training code, dataset, and pre-trained weights are available at
https://github.com/graykode/commit-autosuggestions
- Abstract(参考訳): コミットメッセージは、自然言語でソースコードの変更を要約するドキュメントである。
よいコミットメッセージは、ソースコードの変更を明確に示すため、開発者間のコラボレーションを促進する。
したがって、我々の仕事はコミットメッセージを自動的に書き込むモデルを開発することです。
この目的のために、コード修正とコミットメッセージからなる345Kデータセットを6つのプログラミング言語(Python、PHP、Go、Java、JavaScript、Ruby)でリリースしています。
ニューラルマシン翻訳(NMT)モデルと同様に、我々のデータセットを使用して、コード修正をエンコーダ入力に、コミットメッセージをデコーダ入力に供給し、生成したコミットメッセージの結果をBLEU-4で測定する。
また,(1)入力を前処理してエンコーダ入力にコード修正を送付する方法という,コミットメッセージ生成結果を改善するための2つのトレーニング手法を提案する。
2)プログラム言語(PL)と自然言語(NL)の文脈表現のギャップを減らすために,コード領域に適した初期重みを利用する手法。
トレーニングコード、データセット、事前トレーニングされたウェイトはhttps://github.com/graykode/commit-autosuggestionsで利用可能だ。
関連論文リスト
- Commit Messages in the Age of Large Language Models [0.9217021281095906]
コード変更に基づいてコミットメッセージを生成するOpenAIのChatGPTの性能を評価する。
本稿では、ChatGPTを用いて得られた結果と、コミットデータに特化して訓練された以前の自動コミットメッセージ生成手法を比較した。
論文 参考訳(メタデータ) (2024-01-31T06:47:12Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - Context-Encoded Code Change Representation for Automated Commit Message
Generation [0.0]
本稿では,変化したコードと変化しないコードを組み合わせることで,コード変更を表現する手法を提案する。
これは現在の表現の限界を克服し、最先端のコミットメッセージ生成メソッドの5/6のパフォーマンスを改善している。
論文 参考訳(メタデータ) (2023-06-26T04:48:14Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing [57.776971051512234]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。
単純化されたシングルラウンドのシングル編集タスクでは、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - ECMG: Exemplar-based Commit Message Generation [45.54414179533286]
コミットメッセージは、コード差分の内容(つまり、コードの変更)とそれらの背後にある意図を簡潔に記述する。
情報検索ベースの手法は、類似のコードdiffsのコミットメッセージを再利用し、ニューラルベースの手法は、コードdiffsとコミットメッセージ間のセマンティックな接続を学習する。
本稿では、類似のコミットメッセージを例に扱い、ニューラルネットワークモデルを誘導して正確なコミットメッセージを生成する、新しい例ベースのニューラルコミットメッセージ生成モデルを提案する。
論文 参考訳(メタデータ) (2022-03-05T10:55:15Z) - Jointly Learning to Repair Code and Generate Commit Message [78.4177637346384]
バグの多いコード、固定コード、新しいタスクのコミットメッセージを含む多言語3重データセットを構築した。
カスケード方式の誤り伝搬問題に対処するため,コード修復とコミットメッセージ生成の両立が可能なジョイントモデルを提案する。
実験結果から,教師学習法とマルチタスク学習法を併用した拡張カスケードモデルにより,自動コード修復のメトリクスの最良のスコアが得られた。
論文 参考訳(メタデータ) (2021-09-25T07:08:28Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。