論文の概要: DRAGON: Robust Classification for Very Large Collections of Software Repositories
- arxiv url: http://arxiv.org/abs/2602.09071v1
- Date: Mon, 09 Feb 2026 10:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.173398
- Title: DRAGON: Robust Classification for Very Large Collections of Software Repositories
- Title(参考訳): DRAGON: 非常に大規模なソフトウェアリポジトリのロバスト分類
- Authors: Stefano Balla, Stefano Zacchiroli, Thomas Degueule, Jean-Rémy Falleri, Romain Robbes,
- Abstract要約: DRAGONは,大規模かつ多様なソフトウェアコレクションを対象としたリポジトリである。
DRAGONは、バージョン管理システムに一般的に格納されている完全に軽量な信号を運用している。
DRAGONの開発副産物として,これまでで最大規模のオープンデータセットをリポジトリとして公開しています。
- 参考スコア(独自算出の注目度): 7.11989492494202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to automatically classify source code repositories with ''topics'' that reflect their content and purpose is very useful, especially when navigating or searching through large software collections. However, existing approaches often rely heavily on README files and other metadata, which are frequently missing, limiting their applicability in real-world large-scale settings. We present DRAGON, a repository classifier designed for very large and diverse software collections. It operates entirely on lightweight signals commonly stored in version control systems: file and directory names, and optionally the README when available. In repository classification at scale, DRAGON improves F1@5 from 54.8% to 60.8%, surpassing the state of the art. DRAGON remains effective even when README files are absent, with performance degrading by only 6% w.r.t. when they are present. This robustness makes it practical for real-world settings where documentation is sparse or inconsistent. Furthermore, many of the remaining classification errors are near misses, where predicted labels are semantically close to the correct topics. This property increases the practical value of the predictions in real-world software collections, where suggesting a few related topics can still guide search and discovery. As a byproduct of developing DRAGON, we also release the largest open dataset to date for repository classification, consisting of 825 thousand repositories with associated ground-truth topics, sourced from the Software Heritage archive, providing a foundation for future large-scale and language-agnostic research on software repository understanding.
- Abstract(参考訳): ソースコードリポジトリを、その内容や目的を反映した'トピック'で自動的に分類する機能は、特に大規模なソフトウェアコレクションのナビゲートや検索において非常に有用である。
しかし、既存のアプローチはREADMEファイルやその他のメタデータに大きく依存することが多い。
本稿では,大規模かつ多様なソフトウェアコレクションを対象としたリポジトリ分類器であるDRAGONを紹介する。
ファイル名とディレクトリ名、オプションで利用可能なREADMEという、バージョン管理システムに一般的に格納されている軽量な信号で完全に動作する。
大規模リポジトリ分類では、DRAGONはF1@5を54.8%から60.8%に改善し、最先端技術を上回っている。
DRAGON は README ファイルが存在しない場合でも有効であり、パフォーマンスは 6% しか低下しない。
この堅牢性は、ドキュメントが疎い、あるいは一貫性のない現実世界の環境では実用的です。
さらに、残りの分類エラーの多くは、予測されたラベルが正しいトピックにセマンティックに近づいている、ミスに近い。
この特性は、現実世界のソフトウェアコレクションにおける予測の実用的価値を高め、いくつかの関連するトピックが依然として探索と発見を導くことができることを示唆している。
DRAGONの開発の副産物として、ソフトウェア遺産アーカイブからソースを得た825万のリポジトリからなるリポジトリ分類のための、これまでで最大のオープンデータセットもリリースしています。
関連論文リスト
- Improving Code Localization with Repository Memory [33.423769985220005]
本稿では,最近の過去のコミットや関連問題を含む非パラメトリックメモリからエージェントを検索するツールを紹介する。
このようなメモリの拡張により,最先端のローカライゼーションフレームワークであるLocAgentが大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T15:10:15Z) - Meta-RAG on Large Codebases Using Code Summarization [11.415083231118142]
大規模言語モデル(LLM)システムは、様々な領域における応用人工知能(AI)研究の最前線にある。
本稿では,情報検索とLLMを用いた大規模既存システムにおけるバグのローカライズを行うマルチエージェントシステムを提案する。
そこでは,要約を利用して79.8%の縮合を行い,コンパクトで構造化された自然言語表現を実現する。
論文 参考訳(メタデータ) (2025-08-04T17:01:10Z) - LLM-based Content Classification Approach for GitHub Repositories by the README Files [2.212685917364911]
大規模言語モデル(LLM)は多くのテキストベースのタスクで優れたパフォーマンスを示している。
本研究では、GitHubファイルの異なるセクションを自動的に分類するために、LLMを微調整するアプローチを開発した。
このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
論文 参考訳(メタデータ) (2025-07-29T15:09:38Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Repository-level Code Search with Neural Retrieval Methods [25.222964965449286]
我々は、リポジトリレベルのコード検索のタスクを、ユーザの質問やバグに対処するのに最も関係のある、コードリポジトリの現在の状態からファイルの集合を検索するものとして定義する。
提案手法は,コミットメッセージに対するBM25ベースの検索と,CodeBERTを用いて関連するファイルを識別するニューラルリランクを組み合わせたものである。
7つの人気のあるオープンソースリポジトリから生成された新しいデータセットの実験では、MAP、MRR、P@1がBM25ベースラインに対して最大80%改善されている。
論文 参考訳(メタデータ) (2025-02-10T21:59:01Z) - An Empirical Study of Dotfiles Repositories Containing User-Specific Configuration Files [1.7556600627464058]
数十万がGitHubにリポジトリを公開している。
GitHubで公開ホストされているdotfilesリポジトリを収集、分析しました。
トップ500のGitHubユーザのうち25.8%が、何らかの形で公開アクセス可能なdotfilesリポジトリを維持していることがわかった。
論文 参考訳(メタデータ) (2025-01-30T18:32:46Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。