論文の概要: LLM-based Content Classification Approach for GitHub Repositories by the README Files
- arxiv url: http://arxiv.org/abs/2507.21899v1
- Date: Tue, 29 Jul 2025 15:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.555244
- Title: LLM-based Content Classification Approach for GitHub Repositories by the README Files
- Title(参考訳): LLMによるREADMEファイルによるGitHubリポジトリのコンテンツ分類手法
- Authors: Malik Uzair Mehmood, Shahid Hussain, Wen Li Wang, Muhammad Usama Malik,
- Abstract要約: 大規模言語モデル(LLM)は多くのテキストベースのタスクで優れたパフォーマンスを示している。
本研究では、GitHubファイルの異なるセクションを自動的に分類するために、LLMを微調整するアプローチを開発した。
このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
- 参考スコア(独自算出の注目度): 2.212685917364911
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: GitHub is the world's most popular platform for storing, sharing, and managing code. Every GitHub repository has a README file associated with it. The README files should contain project-related information as per the recommendations of GitHub to support the usage and improvement of repositories. However, GitHub repository owners sometimes neglected these recommendations. This prevents a GitHub repository from reaching its full potential. This research posits that the comprehensiveness of a GitHub repository's README file significantly influences its adoption and utilization, with a lack of detail potentially hindering its full potential for widespread engagement and impact within the research community. Large Language Models (LLMs) have shown great performance in many text-based tasks including text classification, text generation, text summarization and text translation. In this study, an approach is developed to fine-tune LLMs for automatically classifying different sections of GitHub README files. Three encoder-only LLMs are utilized, including BERT, DistilBERT and RoBERTa. These pre-trained models are then fine-tuned based on a gold-standard dataset consisting of 4226 README file sections. This approach outperforms current state-of-the-art methods and has achieved an overall F1 score of 0.98. Moreover, we have also investigated the use of Parameter-Efficient Fine-Tuning (PEFT) techniques like Low-Rank Adaptation (LoRA) and shown an economical alternative to full fine-tuning without compromising much performance. The results demonstrate the potential of using LLMs in designing an automatic classifier for categorizing the content of GitHub README files. Consequently, this study contributes to the development of automated tools for GitHub repositories to improve their identifications and potential usages.
- Abstract(参考訳): GitHubは、コードの保存、共有、管理で世界で最も人気のあるプラットフォームである。
GitHubリポジトリにはREADMEファイルが関連付けられている。
READMEファイルにはGitHubのレコメンデーションに従ってプロジェクト関連の情報が含まれ、リポジトリの使用と改善をサポートする必要がある。
しかし、GitHubリポジトリのオーナーは、これらのレコメンデーションを無視することがある。
これにより、GitHubリポジトリがその潜在能力を最大限に発揮できない。
この研究は、GitHubリポジトリのREADMEファイルの包括性が、その採用と利用に大きな影響を与えていることを示唆している。
大規模言語モデル(LLM)は、テキスト分類、テキスト生成、テキスト要約、テキスト翻訳など、多くのテキストベースのタスクにおいて優れたパフォーマンスを示している。
本研究では、GitHub READMEファイルの異なるセクションを自動分類するLLMを微調整する手法を開発した。
BERT、DistilBERT、RoBERTaの3つのエンコーダのみのLLMが使用されている。
これらの事前訓練されたモデルは、4226 READMEファイルセクションからなる金標準データセットに基づいて微調整される。
このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
また,Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いファインチューニング(PEFT)技術の利用についても検討し,性能を損なうことなく完全なファインチューニングの経済的な代替策を示す。
結果は、GitHub READMEファイルの内容を分類する自動分類器を設計する際にLLMを使うことの可能性を示している。
その結果、GitHubリポジトリの自動ツールの開発に寄与し、その識別と潜在的な使用量を改善することができる。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。
ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating Transfer Learning for Simplifying GitHub READMEs [11.219774223416648]
本研究は,GitHubファイルを自動的に単純化する,ソフトウェア工学領域におけるテキスト簡略化手法の可能性を探るものである。
14,588のエントリで構成された、ソフトウェア関連のGitHubファイルのペアを収集し、単純化された文と整列させ、難しいバージョンを自動的に単純化するためにTransformerベースのモデルをトレーニングしました。
自動BLEUスコアと人的評価を用いて,トランスファー学習方式とベースラインモデルの性能を比較した。
論文 参考訳(メタデータ) (2023-08-19T08:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。