Fugu-MT 論文翻訳(概要): LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss

論文の概要: LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss

arxiv url: http://arxiv.org/abs/2403.05873v1
Date: Sat, 9 Mar 2024 10:49:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 12:05:21.072449
Title: LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss
Title（参考訳）: LEGION: GitHub Topic Recommendations for Distribution-Balance Lossのトレーニング済み言語モデル
Authors: Yen-Trang Dang, Thanh-Le Cong, Phuc-Thanh Nguyen, Anh M. T. Bui, Phuong T. Nguyen, Bach Le, Quyet-Thang Huynh
Abstract要約: 自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
参考スコア（独自算出の注目度）: 3.946772434700026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-source development has revolutionized the software industry by promoting collaboration, transparency, and community-driven innovation. Today, a vast amount of various kinds of open-source software, which form networks of repositories, is often hosted on GitHub - a popular software development platform. To enhance the discoverability of the repository networks, i.e., groups of similar repositories, GitHub introduced repository topics in 2017 that enable users to more easily explore relevant projects by type, technology, and more. It is thus crucial to accurately assign topics for each GitHub repository. Current methods for automatic topic recommendation rely heavily on TF-IDF for encoding textual data, presenting challenges in understanding semantic nuances. This paper addresses the limitations of existing techniques by proposing Legion, a novel approach that leverages Pre-trained Language Models (PTMs) for recommending topics for GitHub repositories. The key novelty of Legion is three-fold. First, Legion leverages the extensive capabilities of PTMs in language understanding to capture contextual information and semantic meaning in GitHub repositories. Second, Legion overcomes the challenge of long-tailed distribution, which results in a bias toward popular topics in PTMs, by proposing a Distribution-Balanced Loss (DB Loss) to better train the PTMs. Third, Legion employs a filter to eliminate vague recommendations, thereby improving the precision of PTMs. Our empirical evaluation on a benchmark dataset of real-world GitHub repositories shows that Legion can improve vanilla PTMs by up to 26% on recommending GitHubs topics. Legion also can suggest GitHub topics more precisely and effectively than the state-of-the-art baseline with an average improvement of 20% and 5% in terms of Precision and F1-score, respectively.
Abstract（参考訳）: オープンソース開発は、コラボレーション、透明性、コミュニティ主導のイノベーションを促進することによって、ソフトウェア産業に革命をもたらした。現在、リポジトリのネットワークを形成するさまざまな種類のオープンソースソフトウェアが、人気のあるソフトウェア開発プラットフォームであるGitHubにホストされていることが多い。レポジトリネットワーク、すなわち類似するレポジトリのグループの発見可能性を高めるため、githubは2017年にrepository topicsを導入した。そのため、GitHubリポジトリ毎にトピックを正確に割り当てることが重要です。自動トピックレコメンデーションの現在の手法は、意味的ニュアンスを理解する上での課題として、テキストデータを符号化するTF-IDFに大きく依存している。本稿では、GitHubリポジトリのトピック推奨に事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案することで、既存のテクニックの限界に対処する。 legion の重要な新しさは 3-fold である。まず、Legionは言語理解におけるPTMの広範な機能を活用して、GitHubリポジトリのコンテキスト情報と意味をキャプチャする。第二に、Legionは長期分布の課題を克服し、PTMのトレーニングを改善するためにDistributed-Balanced Loss (DB Loss)を提案する。第3に、legionはフィルターを使用してあいまいな推奨を排除し、ptmの精度を向上させる。実世界のgithubリポジトリのベンチマークデータセットにおける経験的評価から、legionはgithubのトピックを推奨することで、vanilla ptmsを最大26%改善できることが分かりました。 legion氏はまた、githubのトピックを最先端のベースラインよりも正確かつ効果的に提案できる。

関連論文リスト

LLM-based Content Classification Approach for GitHub Repositories by the README Files [2.212685917364911]
大規模言語モデル(LLM)は多くのテキストベースのタスクで優れたパフォーマンスを示している。本研究では、GitHubファイルの異なるセクションを自動的に分類するために、LLMを微調整するアプローチを開発した。このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
論文参考訳（メタデータ） (2025-07-29T15:09:38Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Visual Analysis of GitHub Issues to Gain Insights [2.9051263101214566]
本稿では,課題タイムラインに関する洞察を提供するために,可視化を生成するプロトタイプWebアプリケーションを提案する。問題のライフサイクルに焦点をあて、ユーザによる開発パターンの理解を高めるために重要な情報を記述する。
論文参考訳（メタデータ） (2024-07-30T15:17:57Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:57Z)
SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文参考訳（メタデータ） (2023-08-25T14:56:21Z)
From Commit Message Generation to History-Aware Commit Message Completion [49.175498083165884]
コミットメッセージ生成からコミットメッセージ補完に焦点を移すことができれば、結果のコミットメッセージの品質と個人的な性質を大幅に改善できる、と私たちは論じています。既存のデータセットには履歴データがないため、20のプログラミング言語で107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。
論文参考訳（メタデータ） (2023-08-15T09:10:49Z)
CommitBART: A Large Pre-trained Model for GitHub Commits [8.783518592487248]
私たちは、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介します。このモデルは、コミットフラグメント表現を学習するための6つの事前学習タスクに対して、3つのカテゴリ(例えば、目的の認知、クロスモーダル生成、コントラスト学習)で事前訓練される。これらのタスクの実験では、CommitBARTは以前のトレーニング済みのコードよりも大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2022-08-17T06:35:57Z)
Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文参考訳（メタデータ） (2022-07-30T16:27:16Z)
GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文参考訳（メタデータ） (2022-05-04T23:42:30Z)
Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文参考訳（メタデータ） (2020-07-09T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。