論文の概要: Creating a Discipline-specific Commons for Infectious Disease
Epidemiology
- arxiv url: http://arxiv.org/abs/2311.06989v1
- Date: Sun, 12 Nov 2023 23:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:06:01.180789
- Title: Creating a Discipline-specific Commons for Infectious Disease
Epidemiology
- Title(参考訳): 感染症疫学の分野別コモンズの作成
- Authors: Michael M. Wagner, William Hogan, John Levander, Adam Darr, Matt
Diller, Max Sibilla, Alexander T. Loiacono. Terence Sperringer, Jr. and Shawn
T. Brown
- Abstract要約: 疫学者、公衆衛生担当者、データプロデューサ、ソフトウェア開発者がデータとソフトウェアを共有できる伝染病疫学の共通点を作成しました。
586のデータセット、54のソフトウェア、24のデータフォーマットをOWL 2で表現し、論理クエリを使って、潜在的に相互運用可能なソフトウェアとデータセットの組み合わせを推論しました。
- 参考スコア(独自算出の注目度): 33.79906135388703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To create a commons for infectious disease (ID) epidemiology in
which epidemiologists, public health officers, data producers, and software
developers can not only share data and software, but receive assistance in
improving their interoperability. Materials and Methods: We represented 586
datasets, 54 software, and 24 data formats in OWL 2 and then used logical
queries to infer potentially interoperable combinations of software and
datasets, as well as statistics about the FAIRness of the collection. We
represented the objects in DATS 2.2 and a software metadata schema of our own
design. We used these representations as the basis for the Content, Search,
FAIR-o-meter, and Workflow pages that constitute the MIDAS Digital Commons.
Results: Interoperability was limited by lack of standardization of input and
output formats of software. When formats existed, they were human-readable
specifications (22/24; 92%); only 3 formats (13%) had machine-readable
specifications. Nevertheless, logical search of a triple store based on named
data formats was able to identify scores of potentially interoperable
combinations of software and datasets. Discussion: We improved the findability
and availability of a sample of software and datasets and developed metrics for
assessing interoperability. The barriers to interoperability included poor
documentation of software input/output formats and little attention to
standardization of most types of data in this field. Conclusion: Centralizing
and formalizing the representation of digital objects within a commons promotes
FAIRness, enables its measurement over time and the identification of
potentially interoperable combinations of data and software.
- Abstract(参考訳): 目的:疫学者、公衆衛生担当者、データ生産者、ソフトウェア開発者がデータとソフトウェアを共有するだけでなく、相互運用を改善する支援を受けることができる感染症疫学の共通点を作成すること。
資料と方法:586のデータセット,54のソフトウェア,24のデータフォーマットをowl 2で表現し,論理クエリを使用して,ソフトウェアとデータセットの相互運用可能な組み合わせと,コレクションの公平性に関する統計を推測した。
DATS 2.2のオブジェクトと、それ自身の設計のソフトウェアメタデータスキーマを表現した。
これらの表現を、midasデジタルコモンズを構成するコンテンツ、検索、フェアオメーター、ワークフローページの基礎として使用しました。
結果: ソフトウェアの入出力フォーマットの標準化の欠如により相互運用性が制限された。
フォーマットが存在するとき、それらは人間可読仕様(22/24; 92%)であり、3つのフォーマット(13%)だけが機械可読仕様であった。
それでも、名前付きデータ形式に基づくトリプルストアの論理的検索は、ソフトウェアとデータセットの相互運用可能な組み合わせのスコアを識別することができた。
議論: ソフトウェアとデータセットのサンプルの発見性と可用性を改善し、相互運用性を評価するためのメトリクスを開発しました。
相互運用性の障壁には、ソフトウェアインプット/アウトプットフォーマットのドキュメントが貧弱で、この分野のほとんどのタイプのデータの標準化にはほとんど注意が払われなかった。
結論: コモンズ内のデジタルオブジェクトの表現の集中化と形式化は公平性を促進し、時間とともにその測定を可能にし、データとソフトウェアの相互運用可能な組み合わせの同定を可能にする。
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data [94.56126023937233]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Revisiting Sentiment Analysis for Software Engineering in the Era of
Large Language Models [12.440597259254286]
ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能について検討した。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文 参考訳(メタデータ) (2023-10-17T09:53:03Z) - Platform for generating medical datasets for machine learning in public
health [0.0]
本稿では,マルチモーダル医療データの品質と信頼性を持続的に生成するプラットフォームの概念を実証する。
異なる外部ソースからデータを収集し、特別なサービスを使用して調和させ、調和したデータを匿名化し、処理されたデータをラベル付けする。
論文 参考訳(メタデータ) (2023-10-12T17:23:52Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Anonymization of Whole Slide Images in Histopathology for Research and
Education [6.418411870822658]
診断組織の病理学では、必然的にベンダー固有のファイルフォーマットに格納される機密データからなる識別データを生成する。
Whole ImagesWSIの配布と外部利用は通常これらのフォーマットで行われる。
この作業により、ネイティブフォーマットを保持しながらWSIを匿名化するためのソフトウェアライブラリが作られる。
論文 参考訳(メタデータ) (2022-11-11T10:15:55Z) - Two heads are better than one: Enhancing medical representations by
pre-training over structured and unstructured electronic health records [23.379185792773875]
マルチモーダル EHR から代表的特徴を自動学習するために,UMM-PLM という,深層学習に基づく医用事前訓練言語モデルを提案する。
まず,各データソースから一助表現を別々に学習する一助情報表現モジュールを開発した。
異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。
論文 参考訳(メタデータ) (2022-01-25T06:14:49Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。