Fugu-MT 論文翻訳(概要): Creating a Discipline-specific Commons for Infectious Disease Epidemiology

論文の概要: Creating a Discipline-specific Commons for Infectious Disease Epidemiology

arxiv url: http://arxiv.org/abs/2311.06989v1
Date: Sun, 12 Nov 2023 23:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 16:06:01.180789
Title: Creating a Discipline-specific Commons for Infectious Disease Epidemiology
Title（参考訳）: 感染症疫学の分野別コモンズの作成
Authors: Michael M. Wagner, William Hogan, John Levander, Adam Darr, Matt Diller, Max Sibilla, Alexander T. Loiacono. Terence Sperringer, Jr. and Shawn T. Brown
Abstract要約: 疫学者、公衆衛生担当者、データプロデューサ、ソフトウェア開発者がデータとソフトウェアを共有できる伝染病疫学の共通点を作成しました。 586のデータセット、54のソフトウェア、24のデータフォーマットをOWL 2で表現し、論理クエリを使って、潜在的に相互運用可能なソフトウェアとデータセットの組み合わせを推論しました。
参考スコア（独自算出の注目度）: 33.79906135388703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objective: To create a commons for infectious disease (ID) epidemiology in which epidemiologists, public health officers, data producers, and software developers can not only share data and software, but receive assistance in improving their interoperability. Materials and Methods: We represented 586 datasets, 54 software, and 24 data formats in OWL 2 and then used logical queries to infer potentially interoperable combinations of software and datasets, as well as statistics about the FAIRness of the collection. We represented the objects in DATS 2.2 and a software metadata schema of our own design. We used these representations as the basis for the Content, Search, FAIR-o-meter, and Workflow pages that constitute the MIDAS Digital Commons. Results: Interoperability was limited by lack of standardization of input and output formats of software. When formats existed, they were human-readable specifications (22/24; 92%); only 3 formats (13%) had machine-readable specifications. Nevertheless, logical search of a triple store based on named data formats was able to identify scores of potentially interoperable combinations of software and datasets. Discussion: We improved the findability and availability of a sample of software and datasets and developed metrics for assessing interoperability. The barriers to interoperability included poor documentation of software input/output formats and little attention to standardization of most types of data in this field. Conclusion: Centralizing and formalizing the representation of digital objects within a commons promotes FAIRness, enables its measurement over time and the identification of potentially interoperable combinations of data and software.
Abstract（参考訳）: 目的:疫学者、公衆衛生担当者、データ生産者、ソフトウェア開発者がデータとソフトウェアを共有するだけでなく、相互運用を改善する支援を受けることができる感染症疫学の共通点を作成すること。資料と方法:586のデータセット,54のソフトウェア,24のデータフォーマットをowl 2で表現し,論理クエリを使用して,ソフトウェアとデータセットの相互運用可能な組み合わせと,コレクションの公平性に関する統計を推測した。 DATS 2.2のオブジェクトと、それ自身の設計のソフトウェアメタデータスキーマを表現した。これらの表現を、midasデジタルコモンズを構成するコンテンツ、検索、フェアオメーター、ワークフローページの基礎として使用しました。結果: ソフトウェアの入出力フォーマットの標準化の欠如により相互運用性が制限された。フォーマットが存在するとき、それらは人間可読仕様(22/24; 92%)であり、3つのフォーマット(13%)だけが機械可読仕様であった。それでも、名前付きデータ形式に基づくトリプルストアの論理的検索は、ソフトウェアとデータセットの相互運用可能な組み合わせのスコアを識別することができた。議論: ソフトウェアとデータセットのサンプルの発見性と可用性を改善し、相互運用性を評価するためのメトリクスを開発しました。相互運用性の障壁には、ソフトウェアインプット/アウトプットフォーマットのドキュメントが貧弱で、この分野のほとんどのタイプのデータの標準化にはほとんど注意が払われなかった。結論: コモンズ内のデジタルオブジェクトの表現の集中化と形式化は公平性を促進し、時間とともにその測定を可能にし、データとソフトウェアの相互運用可能な組み合わせの同定を可能にする。

関連論文リスト

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows [0.0]
DataJointはSciOpsの基盤を作り、エージェントはデータ破損のリスクを冒さずに科学的変換に参加できる。テーブルはワークフローステップを表し、行はアーティファクトを表し、外部キーは実行順序を規定する。データ構造、計算依存、整合性の制約がすべてクエリ可能、強制可能、機械可読である単一形式システム。
論文参考訳（メタデータ） (2026-02-18T16:35:47Z)
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Efficient Conformance Checking of Rich Data-Aware Declare Specifications (Extended) [49.46686813437884]
一般的なデータ型やデータ条件とリッチな設定で,データを考慮した最適アライメントを計算可能であることを示す。これは、制御フローとデータ依存関係を扱うために、よく知られた2つのアプローチを慎重に組み合わせることで達成される。
論文参考訳（メタデータ） (2025-06-30T10:16:21Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports [26.2463670182172]
フェデレーショントレーニングは、多種多様なデータストレージオプション、一貫性のない命名方式、さまざまなアノテーション手順、ラベル品質の相違により、しばしば異種データセットによって妨げられる。これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。我々は、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
論文参考訳（メタデータ） (2024-07-12T07:34:10Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [93.55219461948529]
PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。 PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
論文参考訳（メタデータ） (2024-06-20T01:43:08Z)
Copycats: the many lives of a publicly available medical imaging dataset [12.98380178359767]
医療画像(MI)データセットは、医療における人工知能の基本である。 MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。
論文参考訳（メタデータ） (2024-02-09T12:01:22Z)
Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models [11.388023221294686]
本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。 5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文参考訳（メタデータ） (2023-10-17T09:53:03Z)
Platform for generating medical datasets for machine learning in public health [0.0]
本稿では,マルチモーダル医療データの品質と信頼性を持続的に生成するプラットフォームの概念を実証する。異なる外部ソースからデータを収集し、特別なサービスを使用して調和させ、調和したデータを匿名化し、処理されたデータをラベル付けする。
論文参考訳（メタデータ） (2023-10-12T17:23:52Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Anonymization of Whole Slide Images in Histopathology for Research and Education [6.418411870822658]
診断組織の病理学では、必然的にベンダー固有のファイルフォーマットに格納される機密データからなる識別データを生成する。 Whole ImagesWSIの配布と外部利用は通常これらのフォーマットで行われる。この作業により、ネイティブフォーマットを保持しながらWSIを匿名化するためのソフトウェアライブラリが作られる。
論文参考訳（メタデータ） (2022-11-11T10:15:55Z)
CateCom: a practical data-centric approach to categorization of computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文参考訳（メタデータ） (2021-09-28T02:59:40Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。