論文の概要: Code Sharing In Prediction Model Research: A Scoping Review
- arxiv url: http://arxiv.org/abs/2604.06212v1
- Date: Mon, 16 Mar 2026 15:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.642164
- Title: Code Sharing In Prediction Model Research: A Scoping Review
- Title(参考訳): 予測モデル研究におけるコードの共有: スコープレビュー
- Authors: Thomas Sounack, Raffaele Giancotti, Catherine A. Gao, Lasai Barreñada, Hyeonhoon Lee, Hyung-Chul Lee, Leo Anthony Celi, Karel G. M. Moons, Gary S. Collins, Charlotta Lindvall, Tom Pollard,
- Abstract要約: ReviewはTRIPOD-Codeの開発を知らせるために、現在のコード共有プラクティスを定量化する。
コード共有は時間とともに増加し、2025年には15.8%に達した。
予測モデル研究では、コード共有は依然として比較的稀であり、共有されると再利用可能な状態に陥ることが多い。
- 参考スコア(独自算出の注目度): 3.5537643715513227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analytical code is essential for reproducing diagnostic and prognostic prediction model research, yet code availability in the published literature remains limited. While the TRIPOD statements set standards for reporting prediction model methods, they do not define explicit standards for repository structure and documentation. This review quantifies current code-sharing practices to inform the development of TRIPOD-Code, a TRIPOD extension reporting guideline focused on code sharing. We conducted a scoping review of PubMed-indexed articles citing TRIPOD or TRIPOD+AI as of Aug 11, 2025, restricted to studies retrievable via the PubMed Central Open Access API. Eligible studies developed, updated, or validated multivariable prediction models. A large language model-assisted pipeline was developed to screen articles and extract code availability statements and repository links. Repositories were assessed with the same LLM against 14 predefined reproducibility-related features. Our code is made publicly available. Among 3,967 eligible articles, 12.2% included code sharing statements. Code sharing increased over time, reaching 15.8% in 2025, and was higher among TRIPOD+AI-citing studies than TRIPOD-citing studies. Sharing prevalence varied widely by journal and country. Repository assessment showed substantial heterogeneity in reproducibility features: most repositories contained a README file (80.5%), but fewer specified dependencies (37.6%; version-constrained 21.6%) or were modular (42.4%). In prediction model research, code sharing remains relatively uncommon, and when shared, often falls short of being reusable. These findings provide an empirical baseline for the TRIPOD-Code extension and underscore the need for clearer expectations beyond code availability, including documentation, dependency specification, licensing, and executable structure.
- Abstract(参考訳): 解析コードは診断および予後予測モデル研究の再現に不可欠であるが、刊行された文献のコード利用は限られている。
TRIPODステートメントは予測モデルメソッドを報告するための標準を設定しているが、リポジトリ構造とドキュメントの明確な標準を定義していない。
本レビューは,TRIPOD拡張レポートガイドラインであるTRIPOD-Codeの開発を通知するために,現在のコード共有プラクティスを定量化する。
2025年8月11日現在, TRIPOD または TRIPOD+AI を引用したPubMed-indexed の記事のスコーピングレビューを行い, PubMed Central Open Access API で検索可能な研究に限定した。
信頼できる研究は多変量予測モデルを開発し、更新し、検証した。
大規模な言語モデル支援パイプラインが開発され、記事の表示とコードアベイラビリティーステートメントとリポジトリリンクの抽出が行われた。
リポジトリは14の再現性に関連する特徴に対して同じLDMで評価した。
私たちのコードは公開されています。
3,967の論文のうち、12.2%はコード共有ステートメントを含んでいた。
コード共有は時間とともに増加し、2025年には15.8%に達した。
共有の頻度は、雑誌や国によって様々であった。
ほとんどのリポジトリにはREADMEファイル(80.5%)が含まれていたが、特定の依存関係(37.6%、バージョン制約21.6%)が少ないか、モジュール(42.4%)であった。
予測モデル研究では、コード共有は依然として比較的稀であり、共有されると再利用可能な状態に陥ることが多い。
これらの発見は、TRIPOD-Code拡張の実証的なベースラインを提供し、ドキュメント、依存性仕様、ライセンス、実行可能な構造を含む、コードの可用性以上の、より明確な期待の必要性を強調している。
関連論文リスト
- Leveraging Large Language Models to Extract and Translate Medical Information in Doctors' Notes for Health Records and Diagnostic Billing Codes [0.0]
本論文では,オープンウェイトなLarge Language Models (LLMs) を用いて医師ノートから臨床情報を抽出し,クラウドベースのサービスに依存しないICD-10-CM診断コードに変換する。
複数のオープンウェイトモデルを評価するために、Ollama、LangChain、コンテナ化された環境を使用して、プライバシを重視したパイプラインが開発された。
その結果、厳密なスキーマ適用は100%近いコンプライアンスを達成したが、より小さなモデルでは、特定の診断符号の正確な生成は困難であることが判明した。
論文 参考訳(メタデータ) (2026-01-14T12:21:12Z) - Probability-Biased Attention over Directed Bipartite Graphs for Long-Tail ICD Coding [12.66839524860715]
コード間の微粒な共起関係をモデル化する学習手法を提案する。
提案手法は,Macro-F1において特に顕著な改良を施した最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-31T04:47:09Z) - CodeRAG: Finding Relevant and Necessary Knowledge for Retrieval-Augmented Repository-Level Code Completion [11.329578913209623]
リポジトリレベルのコード補完は、リポジトリからのより広範な情報に基づいて、未完成のコードを自動的に予測する。
CodeRAGは、リポジトリレベルのコード補完を検索するために必要な知識を特定するためのフレームワークである。
論文 参考訳(メタデータ) (2025-09-19T15:57:40Z) - Towards A Generalist Code Embedding Model Based On Massive Data Synthesis [35.04242699869519]
汎用コード検索のための最先端の埋め込みモデルである textbfCodeR (underlineCode underlineRetrieval) を導入する。
CodeRの優れたパフォーマンスは、DRU原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
論文 参考訳(メタデータ) (2025-05-19T04:37:53Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - MDACE: MIMIC Documents Annotated with Code Evidence [7.200839302089557]
本稿では,長期医療文書上での極端に多ラベルな分類課題に対するエビデンス/リレール抽出のためのデータセットを提案する。
このデータセットは、302の入院患者チャート、3,934のエビデンス、52のプロフィーチャート、5,563のエビデンスで構成されている。
論文 参考訳(メタデータ) (2023-07-07T22:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。