論文の概要: Creating a Discipline-specific Commons for Infectious Disease
Epidemiology
- arxiv url: http://arxiv.org/abs/2311.06989v1
- Date: Sun, 12 Nov 2023 23:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:06:01.180789
- Title: Creating a Discipline-specific Commons for Infectious Disease
Epidemiology
- Title(参考訳): 感染症疫学の分野別コモンズの作成
- Authors: Michael M. Wagner, William Hogan, John Levander, Adam Darr, Matt
Diller, Max Sibilla, Alexander T. Loiacono. Terence Sperringer, Jr. and Shawn
T. Brown
- Abstract要約: 疫学者、公衆衛生担当者、データプロデューサ、ソフトウェア開発者がデータとソフトウェアを共有できる伝染病疫学の共通点を作成しました。
586のデータセット、54のソフトウェア、24のデータフォーマットをOWL 2で表現し、論理クエリを使って、潜在的に相互運用可能なソフトウェアとデータセットの組み合わせを推論しました。
- 参考スコア(独自算出の注目度): 33.79906135388703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To create a commons for infectious disease (ID) epidemiology in
which epidemiologists, public health officers, data producers, and software
developers can not only share data and software, but receive assistance in
improving their interoperability. Materials and Methods: We represented 586
datasets, 54 software, and 24 data formats in OWL 2 and then used logical
queries to infer potentially interoperable combinations of software and
datasets, as well as statistics about the FAIRness of the collection. We
represented the objects in DATS 2.2 and a software metadata schema of our own
design. We used these representations as the basis for the Content, Search,
FAIR-o-meter, and Workflow pages that constitute the MIDAS Digital Commons.
Results: Interoperability was limited by lack of standardization of input and
output formats of software. When formats existed, they were human-readable
specifications (22/24; 92%); only 3 formats (13%) had machine-readable
specifications. Nevertheless, logical search of a triple store based on named
data formats was able to identify scores of potentially interoperable
combinations of software and datasets. Discussion: We improved the findability
and availability of a sample of software and datasets and developed metrics for
assessing interoperability. The barriers to interoperability included poor
documentation of software input/output formats and little attention to
standardization of most types of data in this field. Conclusion: Centralizing
and formalizing the representation of digital objects within a commons promotes
FAIRness, enables its measurement over time and the identification of
potentially interoperable combinations of data and software.
- Abstract(参考訳): 目的:疫学者、公衆衛生担当者、データ生産者、ソフトウェア開発者がデータとソフトウェアを共有するだけでなく、相互運用を改善する支援を受けることができる感染症疫学の共通点を作成すること。
資料と方法:586のデータセット,54のソフトウェア,24のデータフォーマットをowl 2で表現し,論理クエリを使用して,ソフトウェアとデータセットの相互運用可能な組み合わせと,コレクションの公平性に関する統計を推測した。
DATS 2.2のオブジェクトと、それ自身の設計のソフトウェアメタデータスキーマを表現した。
これらの表現を、midasデジタルコモンズを構成するコンテンツ、検索、フェアオメーター、ワークフローページの基礎として使用しました。
結果: ソフトウェアの入出力フォーマットの標準化の欠如により相互運用性が制限された。
フォーマットが存在するとき、それらは人間可読仕様(22/24; 92%)であり、3つのフォーマット(13%)だけが機械可読仕様であった。
それでも、名前付きデータ形式に基づくトリプルストアの論理的検索は、ソフトウェアとデータセットの相互運用可能な組み合わせのスコアを識別することができた。
議論: ソフトウェアとデータセットのサンプルの発見性と可用性を改善し、相互運用性を評価するためのメトリクスを開発しました。
相互運用性の障壁には、ソフトウェアインプット/アウトプットフォーマットのドキュメントが貧弱で、この分野のほとんどのタイプのデータの標準化にはほとんど注意が払われなかった。
結論: コモンズ内のデジタルオブジェクトの表現の集中化と形式化は公平性を促進し、時間とともにその測定を可能にし、データとソフトウェアの相互運用可能な組み合わせの同定を可能にする。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports [26.2463670182172]
フェデレーショントレーニングは、多種多様なデータストレージオプション、一貫性のない命名方式、さまざまなアノテーション手順、ラベル品質の相違により、しばしば異種データセットによって妨げられる。
これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。
我々は、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
論文 参考訳(メタデータ) (2024-07-12T07:34:10Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Copycats: the many lives of a publicly available medical imaging dataset [12.98380178359767]
医療画像(MI)データセットは、医療における人工知能の基本である。
MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。
オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。
論文 参考訳(メタデータ) (2024-02-09T12:01:22Z) - Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models [11.388023221294686]
本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。
5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文 参考訳(メタデータ) (2023-10-17T09:53:03Z) - Platform for generating medical datasets for machine learning in public
health [0.0]
本稿では,マルチモーダル医療データの品質と信頼性を持続的に生成するプラットフォームの概念を実証する。
異なる外部ソースからデータを収集し、特別なサービスを使用して調和させ、調和したデータを匿名化し、処理されたデータをラベル付けする。
論文 参考訳(メタデータ) (2023-10-12T17:23:52Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Anonymization of Whole Slide Images in Histopathology for Research and
Education [6.418411870822658]
診断組織の病理学では、必然的にベンダー固有のファイルフォーマットに格納される機密データからなる識別データを生成する。
Whole ImagesWSIの配布と外部利用は通常これらのフォーマットで行われる。
この作業により、ネイティブフォーマットを保持しながらWSIを匿名化するためのソフトウェアライブラリが作られる。
論文 参考訳(メタデータ) (2022-11-11T10:15:55Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。