論文の概要: LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss
- arxiv url: http://arxiv.org/abs/2403.05873v1
- Date: Sat, 9 Mar 2024 10:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:05:21.072449
- Title: LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss
- Title(参考訳): LEGION: GitHub Topic Recommendations for Distribution-Balance Lossのトレーニング済み言語モデル
- Authors: Yen-Trang Dang, Thanh-Le Cong, Phuc-Thanh Nguyen, Anh M. T. Bui,
Phuong T. Nguyen, Bach Le, Quyet-Thang Huynh
- Abstract要約: 自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。
実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
- 参考スコア(独自算出の注目度): 3.946772434700026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source development has revolutionized the software industry by promoting
collaboration, transparency, and community-driven innovation. Today, a vast
amount of various kinds of open-source software, which form networks of
repositories, is often hosted on GitHub - a popular software development
platform. To enhance the discoverability of the repository networks, i.e.,
groups of similar repositories, GitHub introduced repository topics in 2017
that enable users to more easily explore relevant projects by type, technology,
and more. It is thus crucial to accurately assign topics for each GitHub
repository. Current methods for automatic topic recommendation rely heavily on
TF-IDF for encoding textual data, presenting challenges in understanding
semantic nuances. This paper addresses the limitations of existing techniques
by proposing Legion, a novel approach that leverages Pre-trained Language
Models (PTMs) for recommending topics for GitHub repositories. The key novelty
of Legion is three-fold. First, Legion leverages the extensive capabilities of
PTMs in language understanding to capture contextual information and semantic
meaning in GitHub repositories. Second, Legion overcomes the challenge of
long-tailed distribution, which results in a bias toward popular topics in
PTMs, by proposing a Distribution-Balanced Loss (DB Loss) to better train the
PTMs. Third, Legion employs a filter to eliminate vague recommendations,
thereby improving the precision of PTMs. Our empirical evaluation on a
benchmark dataset of real-world GitHub repositories shows that Legion can
improve vanilla PTMs by up to 26% on recommending GitHubs topics. Legion also
can suggest GitHub topics more precisely and effectively than the
state-of-the-art baseline with an average improvement of 20% and 5% in terms of
Precision and F1-score, respectively.
- Abstract(参考訳): オープンソース開発は、コラボレーション、透明性、コミュニティ主導のイノベーションを促進することによって、ソフトウェア産業に革命をもたらした。
現在、リポジトリのネットワークを形成するさまざまな種類のオープンソースソフトウェアが、人気のあるソフトウェア開発プラットフォームであるGitHubにホストされていることが多い。
レポジトリネットワーク、すなわち類似するレポジトリのグループの発見可能性を高めるため、githubは2017年にrepository topicsを導入した。
そのため、GitHubリポジトリ毎にトピックを正確に割り当てることが重要です。
自動トピックレコメンデーションの現在の手法は、意味的ニュアンスを理解する上での課題として、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピック推奨に事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案することで、既存のテクニックの限界に対処する。
legion の重要な新しさは 3-fold である。
まず、Legionは言語理解におけるPTMの広範な機能を活用して、GitHubリポジトリのコンテキスト情報と意味をキャプチャする。
第二に、Legionは長期分布の課題を克服し、PTMのトレーニングを改善するためにDistributed-Balanced Loss (DB Loss)を提案する。
第3に、legionはフィルターを使用してあいまいな推奨を排除し、ptmの精度を向上させる。
実世界のgithubリポジトリのベンチマークデータセットにおける経験的評価から、legionはgithubのトピックを推奨することで、vanilla ptmsを最大26%改善できることが分かりました。
legion氏はまた、githubのトピックを最先端のベースラインよりも正確かつ効果的に提案できる。
関連論文リスト
- MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [40.197080433023004]
大規模言語モデル(LLM)は、コード生成と理解において有望であるが、コード変更では困難に直面している。
ソフトウェア進化のためにカスタマイズされた4種類のエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - From Commit Message Generation to History-Aware Commit Message
Completion [49.175498083165884]
コミットメッセージ生成からコミットメッセージ補完に焦点を移すことができれば、結果のコミットメッセージの品質と個人的な性質を大幅に改善できる、と私たちは論じています。
既存のデータセットには履歴データがないため、20のプログラミング言語で107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。
以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-15T09:10:49Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - CommitBART: A Large Pre-trained Model for GitHub Commits [8.783518592487248]
私たちは、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介します。
このモデルは、コミットフラグメント表現を学習するための6つの事前学習タスクに対して、3つのカテゴリ(例えば、目的の認知、クロスモーダル生成、コントラスト学習)で事前訓練される。
これらのタスクの実験では、CommitBARTは以前のトレーニング済みのコードよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2022-08-17T06:35:57Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - Learning to Transfer Prompts for Text Generation [97.64625999380425]
転送可能なテキスト生成のための新しいプロンプトベース手法(PTG)を提案する。
まず、PTGは、様々なソース生成タスクの一連のソースプロンプトを学習し、ターゲット生成タスクを実行するためのターゲットプロンプトとしてこれらのプロンプトを転送する。
広範な実験では、PTGは微調整法よりも競争力または優れた結果が得られる。
論文 参考訳(メタデータ) (2022-05-03T14:53:48Z) - CSSR: A Context-Aware Sequential Software Service Recommendation Model [4.306391411024746]
ユーザが適切なリポジトリをGitHubで見つけるのに役立つ新しいソフトウェアサービスレコメンデーションモデルを提案する。
我々のモデルはまず,リポジトリのリッチなコンテキスト情報を活用するために,新しいコンテキスト依存のリポジトリグラフ埋め込み法を設計する。
そして、ソフトウェアサービスレコメンデーション分野において、初めてユーザー-リポジトリ間のインタラクションのシーケンス情報を活用する。
論文 参考訳(メタデータ) (2021-12-20T03:17:42Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。