論文の概要: ComSum: Commit Messages Summarization and Meaning Preservation
- arxiv url: http://arxiv.org/abs/2108.10763v1
- Date: Mon, 23 Aug 2021 07:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:24:28.165239
- Title: ComSum: Commit Messages Summarization and Meaning Preservation
- Title(参考訳): ComSum: コミットメッセージの要約と保存の意味
- Authors: Leshem Choshen, Idan Amit
- Abstract要約: テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。
サイズ、実用性、挑戦的な言語ドメインの増大とともに、このデータセットは経験的ソフトウェア工学の生きた分野の恩恵を受けている。
- 参考スコア(独自算出の注目度): 17.489658296438694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ComSum, a data set of 7 million commit messages for text
summarization. When documenting commits, software code changes, both a message
and its summary are posted. We gather and filter those to curate developers'
work summarization data set. Along with its growing size, practicality and
challenging language domain, the data set benefits from the living field of
empirical software engineering. As commits follow a typology, we propose to not
only evaluate outputs by Rouge, but by their meaning preservation.
- Abstract(参考訳): テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。
文書化コミット時には、ソフトウェアコードが変更され、メッセージと要約の両方がポストされる。
これらを集めて、開発者の作業要約データセットをキュレートします。
サイズ、実用性、挑戦的な言語ドメインの増大とともに、データセットは経験的ソフトウェア工学の生きた分野の恩恵を受ける。
コミットはタイプロジに従っているため,ルージュによるアウトプットの評価だけでなく,その意味の保存も提案する。
関連論文リスト
- Rationale Dataset and Analysis for the Commit Messages of the Linux Kernel Out-of-Memory Killer [1.290382979353427]
我々はLinux Kernel Out-Of-Memory Killerコンポーネントを解析するためのラベル付きデータセットの作成について詳述する。
我々は,存在,時間的進化,構造といった合理的情報の側面を研究する。
私たちのデータセットのコミットの98.9%は、合理的な情報を持つ文を含み、経験豊富な開発者は、コミットの文の約60%に合理性を報告している。
論文 参考訳(メタデータ) (2024-02-06T19:25:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - From Commit Message Generation to History-Aware Commit Message
Completion [49.175498083165884]
コミットメッセージ生成からコミットメッセージ補完に焦点を移すことができれば、結果のコミットメッセージの品質と個人的な性質を大幅に改善できる、と私たちは論じています。
既存のデータセットには履歴データがないため、20のプログラミング言語で107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。
以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-15T09:10:49Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - EmailSum: Abstractive Email Thread Summarization [105.46012304024312]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。
このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。
本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文 参考訳(メタデータ) (2021-07-30T15:13:14Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Spying on your neighbors: Fine-grained probing of contextual embeddings
for information about surrounding words [12.394077144994617]
本稿では,周辺単語の情報エンコーディングのためのコンテキスト埋め込みのきめ細かいテストを可能にする探索タスクのスイートを紹介する。
我々は、人気のあるBERT、ELMoおよびGPTコンテキストエンコーダを調べ、テストされた情報型が実際にトークン間でコンテキスト情報としてエンコードされていることを発見した。
トークン埋め込みを構築する際に,異なる種類のモデルがどのように分解し,単語レベルのコンテキスト情報を優先するかについて,これらの結果の意味を論じる。
論文 参考訳(メタデータ) (2020-05-04T19:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。