論文の概要: Measuring Data Collection Diligence for Community Healthcare
- arxiv url: http://arxiv.org/abs/2011.02962v5
- Date: Wed, 7 Apr 2021 15:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:38:27.864464
- Title: Measuring Data Collection Diligence for Community Healthcare
- Title(参考訳): 地域医療におけるデータ収集ディリジェンスの測定
- Authors: Ramesha Karunasena, Mohammad Sarparajul Ambiya, Arunesh Sinha, Ruchit
Nagar, Saachi Dalal, Divy Thakkar, Dhyanesh Narayanan, Milind Tambe
- Abstract要約: 地域保健従事者(CHW)による非宗教的データ収集は、発展途上国において重要な課題である。
本研究では,データ収集のディリジェンススコアを定義し,テストする。
インドにおけるNGOのフィールドモニタを用いて,本フレームワークを地上で検証した。
- 参考スコア(独自算出の注目度): 23.612133021992868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analytics has tremendous potential to provide targeted benefit in
low-resource communities, however the availability of high-quality public
health data is a significant challenge in developing countries primarily due to
non-diligent data collection by community health workers (CHWs). In this work,
we define and test a data collection diligence score. This challenging
unlabeled data problem is handled by building upon domain expert's guidance to
design a useful data representation of the raw data, using which we design a
simple and natural score. An important aspect of the score is relative scoring
of the CHWs, which implicitly takes into account the context of the local area.
The data is also clustered and interpreting these clusters provides a natural
explanation of the past behavior of each data collector. We further predict the
diligence score for future time steps. Our framework has been validated on the
ground using observations by the field monitors of our partner NGO in India.
Beyond the successful field test, our work is in the final stages of deployment
in the state of Rajasthan, India.
- Abstract(参考訳): しかし、高品質の公衆衛生データの提供は、主に地域保健従事者(CHW)による非宗教的なデータ収集が原因で、発展途上国において重要な課題となっている。
本研究では,データ収集のディリジェンススコアを定義し,テストする。
この挑戦的な未ラベルデータ問題は、ドメインエキスパートのガイダンスに基づいて生データの有用なデータ表現を設計し、単純で自然なスコアを設計することで処理されます。
スコアの重要な側面はCHWの相対的なスコアであり、ローカル領域のコンテキストを暗黙的に考慮している。
データはクラスタ化され、これらのクラスタを解釈することで、各データコレクタの過去の振る舞いを自然な説明を提供する。
さらに,今後の時間ステップにおけるディリジェンススコアの予測を行う。
インドにおけるNGOのフィールドモニタを用いて,本フレームワークを地上で検証した。
フィールドテストの成功以外にも、我々の仕事はインドのラジャスタン州における展開の最終段階にあります。
関連論文リスト
- Weak-Annotation of HAR Datasets using Vision Foundation Models [9.948823510429902]
本稿では,アノテータがアノテータに注釈を付ける必要のあるデータの量を大幅に削減する,新しいクラスタリングベースのアノテーションパイプラインを提案する。
提案手法を用いることで,3つのHARベンチマークデータセットに対して平均的なラベル付け精度を90%近い精度で達成できることがわかった。
論文 参考訳(メタデータ) (2024-08-09T16:46:53Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Copycats: the many lives of a publicly available medical imaging dataset [12.98380178359767]
医療画像(MI)データセットは、医療における人工知能の基本である。
MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。
オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。
論文 参考訳(メタデータ) (2024-02-09T12:01:22Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - SDOH-NLI: a Dataset for Inferring Social Determinants of Health from
Clinical Notes [13.991819517682574]
社会的および行動的健康決定因子(SDOH)は、健康結果を形成する上で重要な役割を果たす。
このタスクにNLPメソッドを使うことの進歩は、高品質な公開ラベル付きデータの不足によって妨げられている。
本稿では,公開ノートをベースとした新たなデータセットであるSDOH-NLIを紹介する。
論文 参考訳(メタデータ) (2023-10-27T19:09:30Z) - Harnessing Administrative Data Inventories to Create a Reliable
Transnational Reference Database for Crop Type Monitoring [0.0]
E URO C ROPSは,国家間の相互運用を目標として,各国で調査された管理データを収集・調和する作物型分類基準データセットである。
論文 参考訳(メタデータ) (2023-10-10T07:57:00Z) - Computationally Assisted Quality Control for Public Health Data Streams [21.056027241048152]
FlaSHは、公衆衛生データユーザのための実用的なアウトリー検出フレームワークである。
シンプルでスケーラブルなモデルを使用して、公衆衛生ストリームの統計特性をキャプチャします。
公衆衛生関係者が使用するデータストリームにデプロイされている。
論文 参考訳(メタデータ) (2023-06-29T13:08:12Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - SustainBench: Benchmarks for Monitoring the Sustainable Development
Goals with Machine Learning [63.192289553021816]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。
近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。
本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文 参考訳(メタデータ) (2021-11-08T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。