論文の概要: COVID-19 India Dataset: Parsing Detailed COVID-19 Data in Daily Health
Bulletins from States in India
- arxiv url: http://arxiv.org/abs/2110.02311v1
- Date: Mon, 27 Sep 2021 16:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-10 11:06:01.058643
- Title: COVID-19 India Dataset: Parsing Detailed COVID-19 Data in Daily Health
Bulletins from States in India
- Title(参考訳): 新型コロナのインドデータ:インドで発生した毎日の健康影響で詳細な新型コロナウイルスのデータを解析
- Authors: Mayank Agarwal, Tathagata Chakraborti, Sachin Grover
- Abstract要約: インドは新型コロナウイルスのパンデミックのホットスポットの1つだ。
新型コロナウイルスのパンデミックに関するデータは、大規模に使用するためにはほとんどアクセスできないことが判明した。
本報告では、公衆衛生報告書からこれらのデータを自動抽出するプロジェクトについて述べる。
- 参考スコア(独自算出の注目度): 13.639207379066788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While India remains one of the hotspots of the COVID-19 pandemic, data about
the pandemic from the country has proved to be largely inaccessible for use at
scale. Much of the data exists in an unstructured form on the web, and limited
aspects of such data are available through public APIs maintained manually
through volunteer efforts. This has proved to be difficult both in terms of
ease of access to detailed data as well as with regards to the maintenance of
manual data-keeping over time. This paper reports on a recently launched
project aimed at automating the extraction of such data from public health
bulletins with the help of a combination of classical PDF parsers as well as
state-of-the-art ML-based documents extraction APIs. In this paper, we will
describe the automated data-extraction technique, the nature of the generated
data, and exciting avenues of ongoing work.
- Abstract(参考訳): インドは依然として新型コロナウイルス(covid-19)パンデミックのホットスポットの1つだが、同国のパンデミックに関するデータはほとんど利用できないことが判明している。
データの大部分がWeb上の非構造化形式で存在し、ボランティア活動を通じて手動で管理される公開APIを通じて、そのようなデータの限られた側面が利用可能である。
これは、詳細なデータへのアクセスの容易性だけでなく、手作業によるデータ管理のメンテナンスに関しても困難であることが判明した。
本稿では,従来のPDFパーサと最先端のMLベースの文書抽出APIを組み合わせることで,公衆衛生報告書からそのようなデータを自動抽出するプロジェクトについて報告する。
本稿では,自動化されたデータ抽出手法,生成されたデータの性質,進行中の作業のエキサイティングな道筋について述べる。
関連論文リスト
- Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - COVID-19: An exploration of consecutive systemic barriers to
pathogen-related data sharing during a pandemic [3.192308005611312]
2020年の新型コロナウイルス(COVID-19)パンデミックは、世界中の政府や研究者の迅速な対応につながった。
2023年末時点で、新型コロナウイルス(COVID-19)による死者は数百万人を超えている。
パンデミックに関連するデータを扱うデータ専門家は、多くの場合、このデータにアクセス、共有、再利用するための重要なシステム上の障壁に直面します。
論文 参考訳(メタデータ) (2022-05-24T14:25:09Z) - Crowdsourcing County-Level Data on Early COVID-19 Policy Interventions
in the United States: Technical Report [18.370633076446843]
我々は、ボランティアと有料のクラウドソーシングの両方を用いて、米国における新型コロナウイルス(COVID-19)のパンデミックに対応する非医薬品介入(NPI)に関するデータを収集した。
データ収集過程を文書化し、その結果を要約し、オープンデータの有用性を高め、今後のクラウドソーシングデータ収集活動の設計を通知する。
論文 参考訳(メタデータ) (2021-12-15T17:16:00Z) - Unsupervised Text Mining of COVID-19 Records [0.0]
Twitterは、研究者が新型コロナウイルス(COVID-19)に反応して公衆衛生を測定するのに役立つ強力なツールだ。
本稿は、CORD-19と命名された新型コロナウイルスに関する既存の医療データセットを前処理し、教師付き分類タスクのためのデータセットを注釈付けした。
論文 参考訳(メタデータ) (2021-09-08T05:57:22Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Measuring Data Collection Diligence for Community Healthcare [23.612133021992868]
地域保健従事者(CHW)による非宗教的データ収集は、発展途上国において重要な課題である。
本研究では,データ収集のディリジェンススコアを定義し,テストする。
インドにおけるNGOのフィールドモニタを用いて,本フレームワークを地上で検証した。
論文 参考訳(メタデータ) (2020-11-05T16:45:03Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z) - A County-level Dataset for Informing the United States' Response to
COVID-19 [5.682299443164938]
我々は、アメリカ合衆国郡のレベルに関する政府、ジャーナリスト、学術情報源から関連するデータを収集するデータセットを提示する。
私たちのデータセットには300以上の変数が含まれており、人口推計、人口統計、民族、住宅、教育、雇用と所得、気候、交通、スコア、医療システム関連メトリクスを要約しています。
論文 参考訳(メタデータ) (2020-04-01T05:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。