論文の概要: Altered Histories in Version Control System Repositories: Evidence from the Trenches
- arxiv url: http://arxiv.org/abs/2509.09294v1
- Date: Thu, 11 Sep 2025 09:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.318118
- Title: Altered Histories in Version Control System Repositories: Evidence from the Trenches
- Title(参考訳): バージョン管理システムリポジトリにおける変更履歴:トレンチからの証拠
- Authors: Solal Rapaport, Laurent Pautet, Samuel Tardieu, Stefano Zacchiroli,
- Abstract要約: 公開コードリポジトリでは,Git履歴の変更に関する最初の大規模調査を実施している。
1.22Mのリポジトリに履歴の修正があり、合計8.7Mのリライト履歴がある。
私たちはGitHistorianを紹介します。これは開発者がパブリックなGitリポジトリでヒストリ変更を見つけて記述するための自動化ツールです。
- 参考スコア(独自算出の注目度): 4.71599202491734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Version Control Systems (VCS) like Git allow developers to locally rewrite recorded history, e.g., to reorder and suppress commits or specific data in them. These alterations have legitimate use cases, but become problematic when performed on public branches that have downstream users: they break push/pull workflows, challenge the integrity and reproducibility of repositories, and create opportunities for supply chain attackers to sneak into them nefarious changes. We conduct the first large-scale investigation of Git history alterations in public code repositories. We analyze 111 M (millions) repositories archived by Software Heritage, which preserves VCS histories even across alterations. We find history alterations in 1.22 M repositories, for a total of 8.7 M rewritten histories. We categorize changes by where they happen (which repositories, which branches) and what is changed in them (files or commit metadata). Conducting two targeted case studies we show that altered histories recurrently change licenses retroactively, or are used to remove ''secrets'' (e.g., private keys) committed by mistake. As these behaviors correspond to bad practices-in terms of project governance or security management, respectively-that software recipients might want to avoid, we introduce GitHistorian, an automated tool, that developers can use to spot and describe history alterations in public Git repositories.
- Abstract(参考訳): Gitのようなバージョン管理システム(VCS)では、開発者は記録された履歴をローカルに書き換えることができる。
プッシュ/プルのワークフローを破り、リポジトリの完全性と再現性に挑戦し、サプライチェーンアタッカーが悪質な変更に忍び込む機会を生み出します。
公開コードリポジトリでGit履歴の変更に関する大規模な調査を初めて実施します。
ソフトウェア遺産によってアーカイブされた111M(数百万)のリポジトリを分析します。
1.22Mのリポジトリに履歴の修正があり、合計8.7Mのリライト履歴がある。
発生場所(どのリポジトリ、どのブランチ)と変更内容(ファイルまたはコミットメタデータ)によって、変更を分類します。
対象とする2つのケーススタディを実行すると、変更履歴が再帰的にライセンスを変更したり、あるいは'シークレット'(例えば、プライベートキー)を誤って削除するために使用されることが示されます。
これらの振る舞いが,プロジェクト管理やセキュリティ管理といった,それぞれが避けたいと思うような悪いプラクティスに対応するため,GitHistorianという自動化ツールを導入して,公開Gitリポジトリの履歴変更の発見と記述に使用しています。
関連論文リスト
- ChangePrism: Visualizing the Essence of Code Changes [9.321152185934105]
本稿では,ChangePrismというツールがサポートする新しい可視化手法を提案する。
このツールは、git履歴からコード変更と関連する情報を取得する抽出と、コミット中のコード変更の一般的なビューと詳細なビューを提供する可視化の2つのコンポーネントで構成されている。
一般的なビューはコミット間で異なるタイプのコード変更の概要を提供し、詳細なビューはコミット毎のソースコードの正確な変更を表示する。
論文 参考訳(メタデータ) (2025-08-18T06:23:34Z) - On the Prevalence and Usage of Commit Signing on GitHub: A Longitudinal and Cross-Domain Study [1.834753484317836]
5年以上にわたってGitHubリポジトリに確認されたコミットの存在を調査した。
これらの60のリポジトリのコミットのうち、10%のみが検証されている。
我々はGitHubのEvents APIに基づいてコミットオーナシップを特定する方法を提案する。
論文 参考訳(メタデータ) (2025-04-27T12:39:50Z) - An Empirical Study of Dotfiles Repositories Containing User-Specific Configuration Files [1.7556600627464058]
数十万がGitHubにリポジトリを公開している。
GitHubで公開ホストされているdotfilesリポジトリを収集、分析しました。
トップ500のGitHubユーザのうち25.8%が、何らかの形で公開アクセス可能なdotfilesリポジトリを維持していることがわかった。
論文 参考訳(メタデータ) (2025-01-30T18:32:46Z) - Towards Better Comprehension of Breaking Changes in the NPM Ecosystem [12.392457751450374]
我々は,NPM生態系の破壊的変化を調査するため,大規模な実証的研究を行っている。
我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。
我々は、JavaScriptとTypeScript固有の構文的破壊変化の分類と、主要な行動的破壊変化の分類を生成する。
論文 参考訳(メタデータ) (2024-08-26T17:18:38Z) - Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。
ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。
7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文 参考訳(メタデータ) (2024-06-17T17:59:35Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing [57.776971051512234]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。
単純化されたシングルラウンドのシングル編集タスクでは、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。