論文の概要: An Annotated Dataset of Stack Overflow Post Edits
- arxiv url: http://arxiv.org/abs/2004.08193v2
- Date: Wed, 6 May 2020 00:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:15:12.865918
- Title: An Annotated Dataset of Stack Overflow Post Edits
- Title(参考訳): Stack Overflow Post Editsの注釈付きデータセット
- Authors: Sebastian Baltes, Markus Wagner
- Abstract要約: Stack Overflowに700万以上のコードとテキストの編集を含む注釈付きデータセットを提示する。
予備的な研究は、これらの編集がきめ細かいパッチに関する情報をマイニングするための宝庫である可能性を示唆している。
- 参考スコア(独自算出の注目度): 6.376344945868474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve software engineering, software repositories have been mined for
code snippets and bug fixes. Typically, this mining takes place at the level of
files or commits. To be able to dig deeper and to extract insights at a higher
resolution, we hereby present an annotated dataset that contains over 7 million
edits of code and text on Stack Overflow. Our preliminary study indicates that
these edits might be a treasure trove for mining information about fine-grained
patches, e.g., for the optimisation of non-functional properties.
- Abstract(参考訳): ソフトウェアエンジニアリングを改善するため、ソフトウェアリポジトリはコードスニペットとバグ修正のために掘り下げられた。
通常、このマイニングはファイルやコミットのレベルで行われる。
より深く掘り下げて、より高い解像度で洞察を抽出するために、stack overflowで700万以上のコードとテキストの編集を含む注釈付きデータセットを提示します。
予備研究では,これらの編集は,例えば非機能特性の最適化など,細粒度パッチに関する情報をマイニングするための宝庫である可能性が示唆された。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions [6.367360745627828]
コード編集タスクのベンチマークを導入し、それをいくつかの最先端LCMの評価に利用する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - ComSum: Commit Messages Summarization and Meaning Preservation [17.489658296438694]
テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。
サイズ、実用性、挑戦的な言語ドメインの増大とともに、このデータセットは経験的ソフトウェア工学の生きた分野の恩恵を受けている。
論文 参考訳(メタデータ) (2021-08-23T07:43:48Z) - On Multi-Modal Learning of Editing Source Code [17.28158089963557]
近年、Neural Machine Translator (NMT) はソースコードを自動編集することを約束している。
本研究では、位置情報の編集、コードコンテキストの編集、(自然言語における開発者のヒントのプロキシとして)メッセージのコミットという3つのモードを利用して、NMTモデルによる編集を自動的に生成する。
入力モダリティとしての開発者のヒントは、パッチの検索スペースを狭くし、最先端モデルより優れ、トップ1位置で正しくパッチされたコードを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-15T02:06:49Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。