論文の概要: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns
- arxiv url: http://arxiv.org/abs/2603.17893v1
- Date: Wed, 18 Mar 2026 16:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.819858
- Title: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns
- Title(参考訳): scicode-lint: LLM生成パターンを用いた科学Pythonコードのメソッドバグ検出
- Authors: Sergey V. Samsonau,
- Abstract要約: 本稿では,パターン設計と実行を分離した2層アーキテクチャのScicode-lintを提案する。
人によってラベル付けされた地面の真実を持つKaggleノートでは、前処理によるリーク検出が100%リコールで65%精度に達する。
AI/MLを適用した38の科学論文では、精度は62%(LLM-judged)であり、パターンのカテゴリによって大きく異なる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methodology bugs in scientific Python code produce plausible but incorrect results that traditional linters and static analysis tools cannot detect. Several research groups have built ML-specific linters, demonstrating that detection is feasible. Yet these tools share a sustainability problem: dependency on specific pylint or Python versions, limited packaging, and reliance on manual engineering for every new pattern. As AI-generated code increases the volume of scientific software, the need for automated methodology checking (such as detecting data leakage, incorrect cross-validation, and missing random seeds) grows. We present scicode-lint, whose two-tier architecture separates pattern design (frontier models at build time) from execution (small local model at runtime). Patterns are generated, not hand-coded; adapting to new library versions costs tokens, not engineering hours. On Kaggle notebooks with human-labeled ground truth, preprocessing leakage detection reaches 65% precision at 100% recall; on 38 published scientific papers applying AI/ML, precision is 62% (LLM-judged) with substantial variation across pattern categories; on a held-out paper set, precision is 54%. On controlled tests, scicode-lint achieves 97.7% accuracy across 66 patterns.
- Abstract(参考訳): 科学的Pythonコードのメソッドバグは、従来のリンタや静的解析ツールでは検出できない、可塑性だが誤った結果を生成する。
いくつかの研究グループがML固有のリンターを構築し、検出が可能であることを示した。
特定のPylintやPythonバージョンへの依存、パッケージングの制限、新しいパターンごとに手作業によるエンジニアリングへの依存などだ。
AI生成コードが科学ソフトウェア量を増やすにつれ、自動方法論チェック(データ漏洩の検出、不正なクロスバリデーション、ランダムシードの欠如など)の必要性が高まっている。
本稿では,2層アーキテクチャがパターン設計(ビルド時の最前線モデル)と実行(実行時の小さなローカルモデル)を分離するScicode-lintを提案する。
パターンが生成され、手書きではない。新しいライブラリバージョンへの適応には、エンジニアリング時間ではなくトークンがかかる。
AI/MLを適用した38の科学論文では、精度が62%(LLM-judged)で、パターンのカテゴリによって大きく異なる。
制御されたテストでは、scicode-lintは66のパターンに対して97.7%の精度を達成する。
関連論文リスト
- Improving Deep Learning Library Testing with Machine Learning [40.21709249669499]
機械学習(ML)を用いて入力妥当性を判定する。
形状関係は、具体的な入力とデータのキャプチャを符号化するための正確な抽象化である。
ML強化入力分類は,DLライブラリテストの大規模化に有効であることを示す。
論文 参考訳(メタデータ) (2026-02-03T17:19:01Z) - Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis [11.687400527666476]
本稿では,決定論的静的解析フレームワークがテキストと自動修正KCHを確実に検出できるかどうかを検討する。
生成されたコードを抽象構文木(AST)に解析し,動的に生成された知識ベース(KB)に対して検証する後処理フレームワークを提案する。
この非実行アプローチでは、決定論的ルールを使用して、APIと識別子レベルの競合を見つけて修正する。
論文 参考訳(メタデータ) (2026-01-27T02:16:37Z) - SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。
BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。
5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文 参考訳(メタデータ) (2025-06-12T09:02:20Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。