Fugu-MT 論文翻訳(概要): LLM-based Content Classification Approach for GitHub Repositories by the README Files

論文の概要: LLM-based Content Classification Approach for GitHub Repositories by the README Files

arxiv url: http://arxiv.org/abs/2507.21899v1
Date: Tue, 29 Jul 2025 15:09:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.555244
Title: LLM-based Content Classification Approach for GitHub Repositories by the README Files
Title（参考訳）: LLMによるREADMEファイルによるGitHubリポジトリのコンテンツ分類手法
Authors: Malik Uzair Mehmood, Shahid Hussain, Wen Li Wang, Muhammad Usama Malik,
Abstract要約: 大規模言語モデル(LLM)は多くのテキストベースのタスクで優れたパフォーマンスを示している。本研究では、GitHubファイルの異なるセクションを自動的に分類するために、LLMを微調整するアプローチを開発した。このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
参考スコア（独自算出の注目度）: 2.212685917364911
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: GitHub is the world's most popular platform for storing, sharing, and managing code. Every GitHub repository has a README file associated with it. The README files should contain project-related information as per the recommendations of GitHub to support the usage and improvement of repositories. However, GitHub repository owners sometimes neglected these recommendations. This prevents a GitHub repository from reaching its full potential. This research posits that the comprehensiveness of a GitHub repository's README file significantly influences its adoption and utilization, with a lack of detail potentially hindering its full potential for widespread engagement and impact within the research community. Large Language Models (LLMs) have shown great performance in many text-based tasks including text classification, text generation, text summarization and text translation. In this study, an approach is developed to fine-tune LLMs for automatically classifying different sections of GitHub README files. Three encoder-only LLMs are utilized, including BERT, DistilBERT and RoBERTa. These pre-trained models are then fine-tuned based on a gold-standard dataset consisting of 4226 README file sections. This approach outperforms current state-of-the-art methods and has achieved an overall F1 score of 0.98. Moreover, we have also investigated the use of Parameter-Efficient Fine-Tuning (PEFT) techniques like Low-Rank Adaptation (LoRA) and shown an economical alternative to full fine-tuning without compromising much performance. The results demonstrate the potential of using LLMs in designing an automatic classifier for categorizing the content of GitHub README files. Consequently, this study contributes to the development of automated tools for GitHub repositories to improve their identifications and potential usages.
Abstract（参考訳）: GitHubは、コードの保存、共有、管理で世界で最も人気のあるプラットフォームである。 GitHubリポジトリにはREADMEファイルが関連付けられている。 READMEファイルにはGitHubのレコメンデーションに従ってプロジェクト関連の情報が含まれ、リポジトリの使用と改善をサポートする必要がある。しかし、GitHubリポジトリのオーナーは、これらのレコメンデーションを無視することがある。これにより、GitHubリポジトリがその潜在能力を最大限に発揮できない。この研究は、GitHubリポジトリのREADMEファイルの包括性が、その採用と利用に大きな影響を与えていることを示唆している。大規模言語モデル(LLM)は、テキスト分類、テキスト生成、テキスト要約、テキスト翻訳など、多くのテキストベースのタスクにおいて優れたパフォーマンスを示している。本研究では、GitHub READMEファイルの異なるセクションを自動分類するLLMを微調整する手法を開発した。 BERT、DistilBERT、RoBERTaの3つのエンコーダのみのLLMが使用されている。これらの事前訓練されたモデルは、4226 READMEファイルセクションからなる金標準データセットに基づいて微調整される。このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。また,Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いファインチューニング(PEFT)技術の利用についても検討し,性能を損なうことなく完全なファインチューニングの経済的な代替策を示す。結果は、GitHub READMEファイルの内容を分類する自動分類器を設計する際にLLMを使うことの可能性を示している。その結果、GitHubリポジトリの自動ツールの開発に寄与し、その識別と潜在的な使用量を改善することができる。

関連論文リスト

Can LLMs Write CI? A Study on Automatic Generation of GitHub Actions Configurations [0.0]
GitHub Actionsのような継続的インテグレーションサービスは、YAMLベースのコンフィギュレーションを記述する必要がある。ソフトウェアエンジニアリングタスクの自動化にLLM(Large Language Models)の利用が増えているにも関わらず、CI構成を生成する能力はまだ未定だ。本稿では、自然言語記述からGitHub Actions設定を生成するための6つのLCMを評価する予備的研究について述べる。
論文参考訳（メタデータ） (2025-07-23T03:18:04Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:57Z)
LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss [3.946772434700026]
自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
論文参考訳（メタデータ） (2024-03-09T10:49:31Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Evaluating Transfer Learning for Simplifying GitHub READMEs [11.219774223416648]
本研究は,GitHubファイルを自動的に単純化する,ソフトウェア工学領域におけるテキスト簡略化手法の可能性を探るものである。 14,588のエントリで構成された、ソフトウェア関連のGitHubファイルのペアを収集し、単純化された文と整列させ、難しいバージョンを自動的に単純化するためにTransformerベースのモデルをトレーニングしました。自動BLEUスコアと人的評価を用いて,トランスファー学習方式とベースラインモデルの性能を比較した。
論文参考訳（メタデータ） (2023-08-19T08:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。