論文の概要: Code Lifespan Survival Analysis (CLSA): Predicting the Survival of Source Code Lines Using AST-Aware Mining
- arxiv url: http://arxiv.org/abs/2606.04993v1
- Date: Wed, 03 Jun 2026 15:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.851345
- Title: Code Lifespan Survival Analysis (CLSA): Predicting the Survival of Source Code Lines Using AST-Aware Mining
- Title(参考訳): Code Lifespan Survival Analysis (CLSA):AST-Aware Mining を用いたソースコードの生存予測
- Authors: Pavel Gurov,
- Abstract要約: 我々は,各行の粒度でコードサバイバルをモデル化する最初のフレームワークであるCode Lifespan Survival Analysis(Kaplan-Meier 中央値に達していない)を紹介した。
120のオープンソースTypeScriptリポジトリから3250万行の生誕イベントをマイニングしています。
ラインレベルのサバイバルモデリングは、解釈可能で、主に静的なリスク信号を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Predicting which source lines will be deleted - and when - matters for maintenance, technical debt, and review prioritization. Existing MSR approaches work at file or method granularity, masking individual-statement risk. Objective: We introduce Code Lifespan Survival Analysis (CLSA), the first framework to model code survival at individual-line granularity. CLSA treats each line as a right-censored subject and estimates deletion risk from structural, contextual, and temporal covariates; its strongest predictors are computable statically from one file (AST structure plus line entropy), without version history or bug data. Method: We mine 32.5 million line birth events from 120 open-source TypeScript repositories. A 5-stage bipartite matching pipeline separates true deletions from refactoring noise (migrations and rewrites), preventing 8.3 million false deaths. We fit a Cox Proportional Hazards model with 15 covariates and check robustness via Weibull/Log-Logistic AFT, gamma frailty, and time-stratified landmark models. Results: More than half of all lines are never deleted (Kaplan-Meier median not reached); among deleted lines the median lifespan is 95.7 days. Covariate effects are strongly time-varying, forming three regimes. Line Shannon entropy is moderately protective for new code (HR=0.84, 0-90 days) and strongly protective for mature code (HR=0.36, 365+ days), explaining its proportional-hazards violation. Lines in conditional branches reverse: protective at birth (HR=0.97), a risk factor after 90 days (HR=1.21). Repository identity is the largest factor: a gamma frailty model (variance theta=1.449) raises concordance from 0.586 to 0.666, outweighing every structural covariate. Conclusion: Line-level survival modeling is tractable, yielding interpretable, mostly static risk signals and a calibration recipe for time-conditional risk scoring in IDEs and code review.
- Abstract(参考訳): コンテキスト: メンテナンス、技術的負債、レビューの優先順位付けに関して、どのソースラインが削除されるか、いつ削除されるかを予測する。
既存のMSRアプローチはファイルやメソッドの粒度で動作し、個々のステートメントリスクを隠蔽する。
目的: Code Lifespan Survival Analysis (CLSA)を紹介します。
CLSAは、各行を右検閲対象として扱い、構造的、文脈的、時間的共変量から削除リスクを推定する。
メソッド: 120のオープンソースTypeScriptリポジトリから3250万行の生誕イベントをマイニングしています。
5段階のバイナリマッチングパイプラインは、真の削除とノイズのリファクタリング(マイグレーションとリライト)を分離し、830万の誤死を防ぐ。
我々は15の共変量を持つCox Proportional Hazardsモデルに適合し、Weibull/Log-Logistic AFT、ガンマフィラリティ、時間階層化ランドマークモデルを介してロバスト性をチェックする。
結果:全線の半分以上が削除されない(カプラン=マイアー中央値に達していない)。
共変量効果は時間によって強く変化し、3つの状態を形成する。
ラインシャノンエントロピーは新しい符号(HR=0.84, 0-90日)を適度に保護し、成熟した符号(HR=0.36, 365+日)を強く保護し、その比例ハザード違反を説明する。
条件分岐の線は逆で、出生時の保護(HR=0.97)は90日後の危険因子(HR=1.21)である。
ガンマフィラリティモデル(分散theta=1.449)は0.586から0.666に一致し、全ての構造的共変量を上回る。
結論: ラインレベルのサバイバルモデリングは、解釈可能で、ほとんど静的なリスク信号と、IDEやコードレビューにおける時間条件のリスクスコアリングのためのキャリブレーションのレシピが得られます。
関連論文リスト
- Sparse Regression under Correlation and Weak Signals: A Reproducible Benchmark of Classical and Bayesian Methods [1.6679662639178268]
合成データに対する6つのスパース回帰法をベンチマークした。
ベイズ法は予測誤差(MSE 72 vs. 108-267)で勝利し、ホースシューは95%近くをカバーしている(94.8%)。
可変選択の場合、F1 0.47のラッソとスパイク・アンド・スラブのネクタイは、後部が不要な場合に事実上のデフォルトとなる。
論文 参考訳(メタデータ) (2026-04-04T15:46:44Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Hubble: An LLM-Driven Agentic Framework for Safe, Diverse, and Reproducible Alpha Factor Discovery [0.0]
本稿では,大規模言語モデル(LLM)とドメイン固有の演算子言語を組み合わせたエージェントファクタマイニングフレームワークであるHumbbleを紹介する。
約500株の米国株式の世界において、当社のメインランは、実行時クラッシュゼロの3ラウンドで104人の有効な候補を評価しています。
次に、上位5因子を修正し、2025-06-01から2026-03-13までの保留期間で検証する。
論文 参考訳(メタデータ) (2026-03-09T05:21:00Z) - Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model [99.16364381244445]
現代の言語モデル(LM)は、トレーニングデータの一部を記憶し、動詞のスパンを出力する傾向がある。
提案するAnchored Decodingは,動詞の模倣を抑えるためのプラグアンドプレイ推論時間法である。
本手法は,著作権リスクとユーティリティの長期評価において,6組のモデルペアで評価する。
論文 参考訳(メタデータ) (2026-02-06T19:00:14Z) - HySurvPred: Multimodal Hyperbolic Embedding with Angle-Aware Hierarchical Contrastive Learning and Uncertainty Constraints for Survival Prediction [39.69619705419638]
がん生存予測のための新しいフレームワークであるHySurvPredを提案する。
マルチモーダル・ハイパーボリックマッピング、アングルを意識したランク付けに基づくコントラスト・ロス(Contrastive Loss)、センサ・コンディション・不確実性制約(Censor-Conditioned Uncertainty Constraint)という3つの重要なモジュールを統合している。
提案手法は,5つのベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-03-18T03:26:22Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - SurvivalGAN: Generating Time-to-Event Data for Survival Analysis [121.84429525403694]
検閲と時間的地平線の不均衡は、生成モデルに生存分析に特有の3つの新しい障害モードを経験させる。
本稿では,検閲やイベントの地平線における不均衡に対処し,生存データを扱う生成モデルであるSurvivalGANを提案する。
医療データセットに関する広範な実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-24T17:03:51Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。