論文の概要: LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss
- arxiv url: http://arxiv.org/abs/2403.05873v1
- Date: Sat, 9 Mar 2024 10:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:05:21.072449
- Title: LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss
- Title(参考訳): LEGION: GitHub Topic Recommendations for Distribution-Balance Lossのトレーニング済み言語モデル
- Authors: Yen-Trang Dang, Thanh-Le Cong, Phuc-Thanh Nguyen, Anh M. T. Bui,
Phuong T. Nguyen, Bach Le, Quyet-Thang Huynh
- Abstract要約: 自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。
実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
- 参考スコア(独自算出の注目度): 3.946772434700026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source development has revolutionized the software industry by promoting
collaboration, transparency, and community-driven innovation. Today, a vast
amount of various kinds of open-source software, which form networks of
repositories, is often hosted on GitHub - a popular software development
platform. To enhance the discoverability of the repository networks, i.e.,
groups of similar repositories, GitHub introduced repository topics in 2017
that enable users to more easily explore relevant projects by type, technology,
and more. It is thus crucial to accurately assign topics for each GitHub
repository. Current methods for automatic topic recommendation rely heavily on
TF-IDF for encoding textual data, presenting challenges in understanding
semantic nuances. This paper addresses the limitations of existing techniques
by proposing Legion, a novel approach that leverages Pre-trained Language
Models (PTMs) for recommending topics for GitHub repositories. The key novelty
of Legion is three-fold. First, Legion leverages the extensive capabilities of
PTMs in language understanding to capture contextual information and semantic
meaning in GitHub repositories. Second, Legion overcomes the challenge of
long-tailed distribution, which results in a bias toward popular topics in
PTMs, by proposing a Distribution-Balanced Loss (DB Loss) to better train the
PTMs. Third, Legion employs a filter to eliminate vague recommendations,
thereby improving the precision of PTMs. Our empirical evaluation on a
benchmark dataset of real-world GitHub repositories shows that Legion can
improve vanilla PTMs by up to 26% on recommending GitHubs topics. Legion also
can suggest GitHub topics more precisely and effectively than the
state-of-the-art baseline with an average improvement of 20% and 5% in terms of
Precision and F1-score, respectively.
- Abstract(参考訳): オープンソース開発は、コラボレーション、透明性、コミュニティ主導のイノベーションを促進することによって、ソフトウェア産業に革命をもたらした。
現在、リポジトリのネットワークを形成するさまざまな種類のオープンソースソフトウェアが、人気のあるソフトウェア開発プラットフォームであるGitHubにホストされていることが多い。
レポジトリネットワーク、すなわち類似するレポジトリのグループの発見可能性を高めるため、githubは2017年にrepository topicsを導入した。
そのため、GitHubリポジトリ毎にトピックを正確に割り当てることが重要です。
自動トピックレコメンデーションの現在の手法は、意味的ニュアンスを理解する上での課題として、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピック推奨に事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案することで、既存のテクニックの限界に対処する。
legion の重要な新しさは 3-fold である。
まず、Legionは言語理解におけるPTMの広範な機能を活用して、GitHubリポジトリのコンテキスト情報と意味をキャプチャする。
第二に、Legionは長期分布の課題を克服し、PTMのトレーニングを改善するためにDistributed-Balanced Loss (DB Loss)を提案する。
第3に、legionはフィルターを使用してあいまいな推奨を排除し、ptmの精度を向上させる。
実世界のgithubリポジトリのベンチマークデータセットにおける経験的評価から、legionはgithubのトピックを推奨することで、vanilla ptmsを最大26%改善できることが分かりました。
legion氏はまた、githubのトピックを最先端のベースラインよりも正確かつ効果的に提案できる。
関連論文リスト
- Visual Analysis of GitHub Issues to Gain Insights [2.9051263101214566]
本稿では,課題タイムラインに関する洞察を提供するために,可視化を生成するプロトタイプWebアプリケーションを提案する。
問題のライフサイクルに焦点をあて、ユーザによる開発パターンの理解を高めるために重要な情報を記述する。
論文 参考訳(メタデータ) (2024-07-30T15:17:57Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。
ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - From Commit Message Generation to History-Aware Commit Message
Completion [49.175498083165884]
コミットメッセージ生成からコミットメッセージ補完に焦点を移すことができれば、結果のコミットメッセージの品質と個人的な性質を大幅に改善できる、と私たちは論じています。
既存のデータセットには履歴データがないため、20のプログラミング言語で107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。
以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-15T09:10:49Z) - CommitBART: A Large Pre-trained Model for GitHub Commits [8.783518592487248]
私たちは、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介します。
このモデルは、コミットフラグメント表現を学習するための6つの事前学習タスクに対して、3つのカテゴリ(例えば、目的の認知、クロスモーダル生成、コントラスト学習)で事前訓練される。
これらのタスクの実験では、CommitBARTは以前のトレーニング済みのコードよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2022-08-17T06:35:57Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。