論文の概要: Evaluating Transfer Learning for Simplifying GitHub READMEs
- arxiv url: http://arxiv.org/abs/2308.09940v1
- Date: Sat, 19 Aug 2023 08:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:29:14.159579
- Title: Evaluating Transfer Learning for Simplifying GitHub READMEs
- Title(参考訳): GitHub READMEの簡易化のためのトランスファーラーニングの評価
- Authors: Haoyu Gao, Christoph Treude and Mansooreh Zahedi
- Abstract要約: 本研究は,GitHubファイルを自動的に単純化する,ソフトウェア工学領域におけるテキスト簡略化手法の可能性を探るものである。
14,588のエントリで構成された、ソフトウェア関連のGitHubファイルのペアを収集し、単純化された文と整列させ、難しいバージョンを自動的に単純化するためにTransformerベースのモデルをトレーニングしました。
自動BLEUスコアと人的評価を用いて,トランスファー学習方式とベースラインモデルの性能を比較した。
- 参考スコア(独自算出の注目度): 11.219774223416648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software documentation captures detailed knowledge about a software product,
e.g., code, technologies, and design. It plays an important role in the
coordination of development teams and in conveying ideas to various
stakeholders. However, software documentation can be hard to comprehend if it
is written with jargon and complicated sentence structure. In this study, we
explored the potential of text simplification techniques in the domain of
software engineering to automatically simplify GitHub README files. We
collected software-related pairs of GitHub README files consisting of 14,588
entries, aligned difficult sentences with their simplified counterparts, and
trained a Transformer-based model to automatically simplify difficult versions.
To mitigate the sparse and noisy nature of the software-related simplification
dataset, we applied general text simplification knowledge to this field. Since
many general-domain difficult-to-simple Wikipedia document pairs are already
publicly available, we explored the potential of transfer learning by first
training the model on the Wikipedia data and then fine-tuning it on the README
data. Using automated BLEU scores and human evaluation, we compared the
performance of different transfer learning schemes and the baseline models
without transfer learning. The transfer learning model using the best
checkpoint trained on a general topic corpus achieved the best performance of
34.68 BLEU score and statistically significantly higher human annotation scores
compared to the rest of the schemes and baselines. We conclude that using
transfer learning is a promising direction to circumvent the lack of data and
drift style problem in software README files simplification and achieved a
better trade-off between simplification and preservation of meaning.
- Abstract(参考訳): ソフトウェアドキュメンテーションは、コード、技術、設計など、ソフトウェア製品に関する詳細な知識をキャプチャする。
開発チームの調整やさまざまなステークホルダーへのアイデアの伝達において重要な役割を担います。
しかし、ジャーゴンと複雑な文構造で書かれた場合、ソフトウェアドキュメンテーションを理解するのは難しい。
本研究では,githubのreadmeファイルを自動的に簡易化するソフトウェア工学領域におけるテキスト簡易化手法の可能性を検討した。
14,588個のエントリからなるgithub readmeファイルのソフトウェア関連ペアを収集し,難文を単純化した文にアレンジし,難解なバージョンを自動的に単純化するトランスフォーマベースのモデルをトレーニングした。
ソフトウェア関連単純化データセットのスパースとノイズを緩和するため,本分野に汎用テキスト単純化知識を適用した。
汎用ドメインの難しいウィキペディア文書ペアはすでに公開されており、まずモデルをWikipediaデータ上でトレーニングし、READMEデータ上で微調整することで、移行学習の可能性を探究した。
bleuの自動スコアと人的評価を用いて,トランスファー学習を伴わないトランスファー学習方式とベースラインモデルのパフォーマンスを比較した。
一般的なトピックコーパスでトレーニングされた最高のチェックポイントを用いた転送学習モデルは、34.68BLEUスコアと統計学的に人間のアノテーションスコアを残りのスキームやベースラインと比較すると、最高のパフォーマンスを達成した。
トランスファー学習は,ソフトウェアreadmeファイルにおけるデータの欠如やドリフトスタイルの問題を回避し,意味の単純化と保存のトレードオフを改善するための有望な方法である。
関連論文リスト
- Software Entity Recognition with Noise-Robust Learning [31.259250137320468]
ウィキペディアの分類を利用して、12のきめ細かいタイプで79Kのユニークなソフトウェアエンティティを持つ包括的なエンティティ辞書を開発する。
そこで我々は,多くのドロップアウトを考慮に入れたソフトウェアエンティティ認識モデルのトレーニングに対して,ノイズローバスト学習手法である自己正規化を提案する。
その結果、自己正規化でトレーニングされたモデルは、私たちのWikipediaベンチマークと2つのStack Overflowベンチマークにおいて、バニラと最先端のアプローチの両方よりも優れています。
論文 参考訳(メタデータ) (2023-08-21T08:41:46Z) - TransCoder: Towards Unified Transferable Code Representation Learning
Inspired by Human Skills [14.443107383265922]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。
我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-05-09T17:42:34Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Novel transfer learning schemes based on Siamese networks and synthetic
data [6.883906273999368]
ディープネットワークに基づくトランスファーラーニングスキームは、コンピュータビジョンの最先端技術を提供する。
このようなアプリケーションは現在、適切なディープ・ネットワーク・モデルを簡単に利用できるアプリケーション・ドメインに限られている。
本稿では,最近導入されたTwin-VAEアーキテクチャを拡張したトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:48:21Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform
for NLP Applications [65.87067607849757]
EasyTransferは自然言語処理(NLP)アプリケーションのためのディープトランスファー学習アルゴリズムを開発するためのプラットフォームである。
EasyTransfer は ModelZoo で様々な NLP モデルをサポートしている。
EasyTransferは現在Alibabaにデプロイされており、さまざまなビジネスシナリオをサポートしている。
論文 参考訳(メタデータ) (2020-11-18T18:41:27Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。