論文の概要: GitHub Repository Complexity Leads to Diminished Web Archive Availability
- arxiv url: http://arxiv.org/abs/2505.15042v1
- Date: Wed, 21 May 2025 02:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.827436
- Title: GitHub Repository Complexity Leads to Diminished Web Archive Availability
- Title(参考訳): GitHubリポジトリの複雑さがWebアーカイブの縮小に繋がる
- Authors: David Calano, Michele C. Weigle, Michael L. Nelson,
- Abstract要約: 私たちは、主にGitHubから12,000以上のWebホストされたGitリポジトリプロジェクトのホームページを調査しました。
調査対象のアーカイブされたリポジトリホームページの31%以上は、何らかの小さなページの損傷を示していた。
平均して5%未満のソースファイルがアーカイブされ、ほとんどのリポジトリはインターネットアーカイブに保存されていない。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software is often developed using versioned controlled software, such as Git, and hosted on centralized Web hosts, such as GitHub and GitLab. These Web hosted software repositories are made available to users in the form of traditional HTML Web pages for each source file and directory, as well as a presentational home page and various descriptive pages. We examined more than 12,000 Web hosted Git repository project home pages, primarily from GitHub, to measure how well their presentational components are preserved in the Internet Archive, as well as the source trees of the collected GitHub repositories to assess the extent to which their source code has been preserved. We found that more than 31% of the archived repository home pages examined exhibited some form of minor page damage and 1.6% exhibited major page damage. We also found that of the source trees analyzed, less than 5% of their source files were archived, on average, with the majority of repositories not having source files saved in the Internet Archive at all. The highest concentration of archived source files available were those linked directly from repositories' home pages at a rate of 14.89% across all available repositories and sharply dropping off at deeper levels of a repository's directory tree.
- Abstract(参考訳): ソフトウェアはGitのようなバージョン管理されたソフトウェアを使って開発され、GitHubやGitLabのような集中型のWebホストでホストされる。
これらのWebホスト型ソフトウェアリポジトリは、各ソースファイルとディレクトリ用の従来のHTML Webページ、プレゼンテーションホームページと様々な記述ページの形式でユーザに提供する。
我々は、主にGitHubから12,000以上のWebホストされたGitリポジトリプロジェクトのホームページを調べ、彼らのプレゼンテーションコンポーネントがインターネットアーカイブにどれだけ保存されているか、また、収集されたGitHubリポジトリのソースツリーがソースコードが保存されているかを評価する。
調査対象のアーカイブリポジトリホームページの31%以上は、何らかの小さなページの損傷を示し、1.6%は大きなページの損傷を示した。
また、解析したソースツリーのうち、平均して5%未満のソースファイルがアーカイブされており、ほとんどのリポジトリは、インターネットアーカイブに保存されていない。
アーカイブされたソースファイルの最大濃度は、リポジトリのホームページから直接、利用可能なすべてのリポジトリで14.89%の割合でリンクされ、リポジトリのディレクトリツリーのより深いレベルで急降下したことである。
関連論文リスト
- Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories
in GitHub [0.0]
私たちはChatGPTを使って、ソフトウェアリポジトリに公開されたコンテンツを理解し、注釈付けします。
教育目的のみのために作成されたとされる35.2KのGitHubリポジトリのコレクションについて、体系的な調査を行っている。
論文 参考訳(メタデータ) (2024-03-07T11:36:09Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - The Software Heritage Open Science Ecosystem [0.0]
ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
論文 参考訳(メタデータ) (2023-10-16T11:32:03Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - The penumbra of open source: projects outside of centralized platforms
are longer maintained, more academic and more collaborative [0.0]
我々は、集中型プラットフォーム以外のオープンソースプロジェクトリポジトリの、新しくて広範なサンプルを開発しています。
我々のサンプルプロジェクトは、より多くの協力者を持ち、長期間維持され、学術的、科学的な問題に集中する傾向にある。
論文 参考訳(メタデータ) (2021-06-29T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。