論文の概要: Evaluating Transfer Learning for Simplifying GitHub READMEs
- arxiv url: http://arxiv.org/abs/2308.09940v1
- Date: Sat, 19 Aug 2023 08:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:29:14.159579
- Title: Evaluating Transfer Learning for Simplifying GitHub READMEs
- Title(参考訳): GitHub READMEの簡易化のためのトランスファーラーニングの評価
- Authors: Haoyu Gao, Christoph Treude and Mansooreh Zahedi
- Abstract要約: 本研究は,GitHubファイルを自動的に単純化する,ソフトウェア工学領域におけるテキスト簡略化手法の可能性を探るものである。
14,588のエントリで構成された、ソフトウェア関連のGitHubファイルのペアを収集し、単純化された文と整列させ、難しいバージョンを自動的に単純化するためにTransformerベースのモデルをトレーニングしました。
自動BLEUスコアと人的評価を用いて,トランスファー学習方式とベースラインモデルの性能を比較した。
- 参考スコア(独自算出の注目度): 11.219774223416648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software documentation captures detailed knowledge about a software product,
e.g., code, technologies, and design. It plays an important role in the
coordination of development teams and in conveying ideas to various
stakeholders. However, software documentation can be hard to comprehend if it
is written with jargon and complicated sentence structure. In this study, we
explored the potential of text simplification techniques in the domain of
software engineering to automatically simplify GitHub README files. We
collected software-related pairs of GitHub README files consisting of 14,588
entries, aligned difficult sentences with their simplified counterparts, and
trained a Transformer-based model to automatically simplify difficult versions.
To mitigate the sparse and noisy nature of the software-related simplification
dataset, we applied general text simplification knowledge to this field. Since
many general-domain difficult-to-simple Wikipedia document pairs are already
publicly available, we explored the potential of transfer learning by first
training the model on the Wikipedia data and then fine-tuning it on the README
data. Using automated BLEU scores and human evaluation, we compared the
performance of different transfer learning schemes and the baseline models
without transfer learning. The transfer learning model using the best
checkpoint trained on a general topic corpus achieved the best performance of
34.68 BLEU score and statistically significantly higher human annotation scores
compared to the rest of the schemes and baselines. We conclude that using
transfer learning is a promising direction to circumvent the lack of data and
drift style problem in software README files simplification and achieved a
better trade-off between simplification and preservation of meaning.
- Abstract(参考訳): ソフトウェアドキュメンテーションは、コード、技術、設計など、ソフトウェア製品に関する詳細な知識をキャプチャする。
開発チームの調整やさまざまなステークホルダーへのアイデアの伝達において重要な役割を担います。
しかし、ジャーゴンと複雑な文構造で書かれた場合、ソフトウェアドキュメンテーションを理解するのは難しい。
本研究では,githubのreadmeファイルを自動的に簡易化するソフトウェア工学領域におけるテキスト簡易化手法の可能性を検討した。
14,588個のエントリからなるgithub readmeファイルのソフトウェア関連ペアを収集し,難文を単純化した文にアレンジし,難解なバージョンを自動的に単純化するトランスフォーマベースのモデルをトレーニングした。
ソフトウェア関連単純化データセットのスパースとノイズを緩和するため,本分野に汎用テキスト単純化知識を適用した。
汎用ドメインの難しいウィキペディア文書ペアはすでに公開されており、まずモデルをWikipediaデータ上でトレーニングし、READMEデータ上で微調整することで、移行学習の可能性を探究した。
bleuの自動スコアと人的評価を用いて,トランスファー学習を伴わないトランスファー学習方式とベースラインモデルのパフォーマンスを比較した。
一般的なトピックコーパスでトレーニングされた最高のチェックポイントを用いた転送学習モデルは、34.68BLEUスコアと統計学的に人間のアノテーションスコアを残りのスキームやベースラインと比較すると、最高のパフォーマンスを達成した。
トランスファー学習は,ソフトウェアreadmeファイルにおけるデータの欠如やドリフトスタイルの問題を回避し,意味の単純化と保存のトレードオフを改善するための有望な方法である。
関連論文リスト
- Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Software Entity Recognition with Noise-Robust Learning [31.259250137320468]
ウィキペディアの分類を利用して、12のきめ細かいタイプで79Kのユニークなソフトウェアエンティティを持つ包括的なエンティティ辞書を開発する。
そこで我々は,多くのドロップアウトを考慮に入れたソフトウェアエンティティ認識モデルのトレーニングに対して,ノイズローバスト学習手法である自己正規化を提案する。
その結果、自己正規化でトレーニングされたモデルは、私たちのWikipediaベンチマークと2つのStack Overflowベンチマークにおいて、バニラと最先端のアプローチの両方よりも優れています。
論文 参考訳(メタデータ) (2023-08-21T08:41:46Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。
我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-05-09T17:42:34Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform
for NLP Applications [65.87067607849757]
EasyTransferは自然言語処理(NLP)アプリケーションのためのディープトランスファー学習アルゴリズムを開発するためのプラットフォームである。
EasyTransfer は ModelZoo で様々な NLP モデルをサポートしている。
EasyTransferは現在Alibabaにデプロイされており、さまざまなビジネスシナリオをサポートしている。
論文 参考訳(メタデータ) (2020-11-18T18:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。