論文の概要: 18 Million Links in Commit Messages: Purpose, Evolution, and Decay
- arxiv url: http://arxiv.org/abs/2305.16591v1
- Date: Fri, 26 May 2023 02:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:23:59.504851
- Title: 18 Million Links in Commit Messages: Purpose, Evolution, and Decay
- Title(参考訳): コミットメッセージに1800万のリンク:目的、進化、衰退
- Authors: Tao Xiao, Sebastian Baltes, Hideaki Hata, Christoph Treude, Raula
Gaikovina Kula, Takashi Ishio, Kenichi Matsumoto
- Abstract要約: 以前の"960万のソースコードコメントリンク"に関する研究は、リンクは崩壊しやすく、時代遅れになり、双方向のトレーサビリティが欠如していることを示している。
23,110GitHubリポジトリのコミットから18,201,165のリンクを大規模に調査し、同じ運命を辿ったかどうかを調査した。
- 参考スコア(独自算出の注目度): 15.164342531109934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commit messages contain diverse and valuable types of knowledge in all
aspects of software maintenance and evolution. Links are an example of such
knowledge. Previous work on "9.6 million links in source code comments" showed
that links are prone to decay, become outdated, and lack bidirectional
traceability. We conducted a large-scale study of 18,201,165 links from commits
in 23,110 GitHub repositories to investigate whether they suffer the same fate.
Results show that referencing external resources is prevalent and that the most
frequent domains other than github.com are the external domains of Stack
Overflow and Google Code. Similarly, links serve as source code context to
commit messages, with inaccessible links being frequent. Although repeatedly
referencing links is rare (4%), 14% of links that are prone to evolve become
unavailable over time; e.g., tutorials or articles and software homepages
become unavailable over time. Furthermore, we find that 70% of the distinct
links suffer from decay; the domains that occur the most frequently are related
to Subversion repositories. We summarize that links in commits share the same
fate as links in code, opening up avenues for future work.
- Abstract(参考訳): コミットメッセージは、ソフトウェアのメンテナンスと進化のあらゆる面において、多様で価値のある種類の知識を含んでいる。
リンクはそのような知識の例です。
以前の"9.6 million links in source code comment"の研究では、リンクが減衰し、時代遅れになり、双方向のトレーサビリティが欠如していることが示されている。
23,110GitHubリポジトリのコミットから18,201,165のリンクを大規模に調査し、同じ運命を辿ったかどうかを調査した。
結果は、外部リソースを参照することが一般的であり、github.com以外の最も頻繁なドメインはStack OverflowとGoogle Codeの外部ドメインであることを示している。
同様に、リンクはコミットメッセージのソースコードコンテキストとして機能し、アクセス不能リンクは頻繁である。
繰り返しリンクを参照することはまれであるが(4%)、進化しがちなリンクの14%は時間とともに利用できなくなり、例えばチュートリアルや記事やソフトウェアホームページは時間とともに利用できなくなる。
さらに、異なるリンクの70%が崩壊に悩まされており、最も頻繁に発生するドメインはSubversionリポジトリと関連している。
コミット中のリンクはコード内のリンクと同じ運命を共有し、将来の作業への道を開くことを要約します。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - Quantification and Modeling of Broken Links Prevalence in Hyper Traffic Websites Homepages [0.0]
ウェブサイトの外部リソースの破壊リンクは、サイバーセキュリティとウェブサイトの信頼性に深刻な脅威をもたらす。
我々は、世界で最も訪問者の多いウェブサイトのホームページにおける外部リソースの障害リンクの頻度に注目した。
論文 参考訳(メタデータ) (2024-02-28T12:46:38Z) - How do Software Engineering Researchers Use GitHub? An Empirical Study of Artifacts & Impact [0.2209921757303168]
我々は、著者が研究にかかわるソーシャルコーディングにどのように関与しているかを尋ねる。
トップSE研究会場で1万件の論文が公開され、GitHubリンクに手書き注釈が付けられ、309の論文関連リポジトリが研究されている。
人気と影響力は広く分布しており、一部は出版会場と強く相関している。
論文 参考訳(メタデータ) (2023-10-02T18:56:33Z) - EALink: An Efficient and Accurate Pre-trained Framework for Issue-Commit
Link Recovery [54.34661595290837]
本稿では,イシュー・コミット・リンク・リカバリのためのEALinkという,効率的かつ正確な事前学習フレームワークを提案する。
大規模なデータセットを構築し、EALinkのパワーを実証するための広範な実験を行う。
その結果、EALinkは様々な評価指標において、最先端の手法よりも大きなマージン(15.23%-408.65%)優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-21T14:46:43Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Beyond Duplicates: Towards Understanding and Predicting Link Types in
Issue Tracking Systems [8.916420423563478]
15のパブリックリポジトリで698,790件のリンクを607,208件調べました。
一般関係リンクは、重複や時間/因果関係よりも非常に高い推移性スコアを持つ。
論文 参考訳(メタデータ) (2022-04-27T12:57:12Z) - The OCEAN mailing list data set: Network analysis spanning mailing lists
and code repositories [0.0]
我々は、Pythonコミュニティのメーリングリストを組み合わせて標準化し、1995年から現在までの954,287のメッセージを得た。
これらのデータの有用性を示すために、私たちはCPythonリポジトリに集中し、技術的レイヤとソーシャルレイヤをマージします。
これらのデータがどのようにして、大規模なオープンソースプロジェクトにおける標準的な組織科学の理論をテストする実験室を提供するかについて議論する。
論文 参考訳(メタデータ) (2022-04-01T17:50:15Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Automated Recovery of Issue-Commit Links Leveraging Both Textual and
Non-textual Data [2.578242050187029]
自動コミット-イシューリンクに対する最先端のアプローチは、精度の低下に悩まされ、信頼性の低い結果に繋がる。
本稿では,2つの情報チャネルを活用することで,このような制限を克服するハイブリッドリンクを提案する。
我々は、競合するアプローチであるFRLinkとDeepLinkに対して、12のプロジェクトのデータセットでHybrid-Linkerを評価した。
論文 参考訳(メタデータ) (2021-07-05T09:38:44Z) - Social Science Guided Feature Engineering: A Novel Approach to Signed
Link Analysis [58.892336054718825]
リンク分析に関する既存の研究のほとんどは、符号なしのソーシャルネットワークに焦点を当てている。
負のリンクの存在は、符号付きネットワークの特性と原則が符号なしネットワークと異なるかどうかを調査することに関心を持つ。
近年の研究では、符号付きネットワークの特性が符号なしネットワークの特性と大きく異なることが示唆されている。
論文 参考訳(メタデータ) (2020-01-04T00:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。