論文の概要: Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature
- arxiv url: http://arxiv.org/abs/2403.14721v1
- Date: Wed, 20 Mar 2024 17:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:21:55.332512
- Title: Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature
- Title(参考訳): 学術文献からのオープンソース臨床情報リポジトリの自動抽出と成熟度解析
- Authors: Jeremy R. Harper,
- Abstract要約: 本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the evolving landscape of clinical informatics, the integration and utilization of software tools developed through governmental funding represent a pivotal advancement in research and application. However, the dispersion of these tools across various repositories, with no centralized knowledge base, poses significant challenges to leveraging their full potential. This study introduces an automated methodology to bridge this gap by systematically extracting GitHub repository URLs from academic papers indexed in arXiv, focusing on the field of clinical informatics. Our approach encompasses querying the arXiv API for relevant papers, cleaning extracted GitHub URLs, fetching comprehensive repository information via the GitHub API, and analyzing repository maturity based on defined metrics such as stars, forks, open issues, and contributors. The process is designed to be robust, incorporating error handling and rate limiting to ensure compliance with API constraints. Preliminary findings demonstrate the efficacy of this methodology in compiling a centralized knowledge base of NIH-funded software tools, laying the groundwork for an enriched understanding and utilization of these resources within the clinical informatics community. We propose the future integration of Large Language Models (LLMs) to generate concise summaries and evaluations of the tools. This approach facilitates the discovery and assessment of clinical informatics tools and also enables ongoing monitoring of new and actively updated repositories, revolutionizing how researchers access and leverage federally funded software. The implications of this study extend beyond simplification of access to valuable resources; it proposes a scalable model for the dynamic aggregation and evaluation of scientific software, encouraging more collaborative, transparent, and efficient research practices in clinical informatics and beyond.
- Abstract(参考訳): 臨床情報学の進化する展望の中で、政府資金を通じて開発されたソフトウェアツールの統合と利用は、研究と応用において重要な進歩を示している。
しかし、これらのツールの分散は、中央集権的な知識ベースを持たない様々なリポジトリに分散しており、その潜在能力を最大限活用するための大きな課題となっている。
本研究では, arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出し, 臨床情報学の分野に着目し, このギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
プロセスは堅牢で、エラー処理とレート制限を組み込んで、API制約の遵守を保証するように設計されている。
NIHが支援するソフトウェアツールの集中的知識基盤を編纂する上で,本手法が有効であることを示す予備的な知見が得られた。
ツールの簡潔な要約と評価を生成するために,Large Language Models (LLMs) の今後の統合を提案する。
このアプローチは、臨床情報ツールの発見と評価を容易にし、また、研究者が連邦政府が資金提供したソフトウェアにアクセスし、活用する方法に革命をもたらす、新しく活発に更新されたリポジトリの継続的な監視を可能にする。
この研究の意義は、価値あるリソースへのアクセスを単純化することを超えて、科学的ソフトウェアを動的に集約し評価するためのスケーラブルなモデルを提案し、臨床情報学などにおけるより協調的で透明で効率的な研究プラクティスを奨励する。
関連論文リスト
- Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications [0.0]
IEEE Biocompute Object(BCO)標準は、ニーズに対処するが、準拠するドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,Large Language Models(LLM)とRAG(Retrieval-Augmented Generation)を用いた科学論文からのBCOの自動生成手法を提案する。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
論文 参考訳(メタデータ) (2024-09-23T14:51:22Z) - The Future of Scientific Publishing: Automated Article Generation [0.0]
本研究では,Python コードからの学術論文の自動生成を目的とした,大規模言語モデル(LLM)プロンプトを活用した新しいソフトウェアツールを提案する。
Pythonは基本的な概念実証として機能するが、基盤となる方法論とフレームワークは、さまざまなGitHubリポジトリにまたがる適応性を示している。
この開発は高度な言語モデルエージェントに頼らずに達成され、一貫性と総合的な学術的コンテンツの自動生成において高い忠実性を確保した。
論文 参考訳(メタデータ) (2024-04-11T16:47:02Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - TemporAI: Facilitating Machine Learning Innovation in Time Domain Tasks
for Medicine [91.3755431537592]
TemporAIは、機械学習(ML)タスクのためのオープンソースのPythonソフトウェアライブラリである。
時系列、静的、イベントモダリティのデータをサポートし、予測、因果推論、時間対イベント分析のためのインターフェースを提供する。
論文 参考訳(メタデータ) (2023-01-28T17:57:53Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Therapeutics Data Commons: Machine Learning Datasets and Tasks for
Therapeutics [84.94299203422658]
Therapeutics Data Commonsは、治療の全範囲にわたる機械学習を体系的にアクセスし、評価するためのフレームワークです。
TDCは、アルゴリズムの革新をバイオメディカルおよび臨床実装に翻訳できる、キュレートされたデータセットと学習タスクのコレクションです。
tdcはまた、データ機能、体系的モデル評価のための戦略、有意義なデータ分割、データプロセッサ、分子生成オラクルを含む、ツール、ライブラリ、リーダーボード、コミュニティリソースのエコシステムを提供する。
論文 参考訳(メタデータ) (2021-02-18T18:50:31Z) - Open Source Software for Efficient and Transparent Reviews [0.11179881480027788]
ASReviewはオープンソースの機械学習支援パイプラインで、アクティブラーニングを適用している。
シミュレーションにより,ASReviewは手作業によるレビューよりもはるかに効率的なレビューを実現することができることを示す。
論文 参考訳(メタデータ) (2020-06-22T11:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。