論文の概要: Leveraging Machine Learning to Detect Data Curation Activities
- arxiv url: http://arxiv.org/abs/2105.00030v1
- Date: Fri, 30 Apr 2021 18:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 06:18:12.745597
- Title: Leveraging Machine Learning to Detect Data Curation Activities
- Title(参考訳): データキュレーションアクティビティ検出のための機械学習の活用
- Authors: Sara Lafia, Andrea Thomer, David Bleckley, Dharma Akmon, Libby
Hemphill
- Abstract要約: 本稿では,ICPSRのデータキュレーション作業ログの注釈付けと解析を行う機械学習手法について述べる。
リポジトリスタッフは、データセット上で行われるキュレーション作業の整理、優先順位付け、文書化にシステムを使用する。
重要な課題は、同様のアクティビティを分類して、測定し、影響メトリクスと関連付けることです。
- 参考スコア(独自算出の注目度): 1.9949261242626626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a machine learning approach for annotating and analyzing
data curation work logs at ICPSR, a large social sciences data archive. The
systems we studied track curation work and coordinate team decision-making at
ICPSR. Repository staff use these systems to organize, prioritize, and document
curation work done on datasets, making them promising resources for studying
curation work and its impact on data reuse, especially in combination with data
usage analytics. A key challenge, however, is classifying similar activities so
that they can be measured and associated with impact metrics. This paper
contributes: 1) a schema of data curation activities; 2) a computational model
for identifying curation actions in work log descriptions; and 3) an analysis
of frequent data curation activities at ICPSR over time. We first propose a
schema of data curation actions to help us analyze the impact of curation work.
We then use this schema to annotate a set of data curation logs, which contain
records of data transformations and project management decisions completed by
repository staff. Finally, we train a text classifier to detect the frequency
of curation actions in a large set of work logs. Our approach supports the
analysis of curation work documented in work log systems as an important step
toward studying the relationship between research data curation and data reuse.
- Abstract(参考訳): 本稿では,大規模社会科学データアーカイブ icpsr におけるデータキュレーション作業ログの注釈と分析のための機械学習手法について述べる。
icpsrにおけるトラックキュレーション作業とチームの意思決定のコーディネートを研究した。
Repositoryのスタッフはこれらのシステムを使用して、データセット上で行われるキュレーション作業の整理、優先順位付け、ドキュメント化を行います。
しかし、重要な課題は、同様のアクティビティを分類して、それらが測定され、影響メトリクスと関連付けられるようにすることだ。
本稿では,1)データキュレーション活動のスキーマ,2)作業ログ記述におけるキュレーション行動の識別のための計算モデル,3)icpsrにおける頻繁なデータのキュレーション活動の分析を行う。
まず、キュレーション作業の影響を分析するのに役立つデータキュレーションアクションのスキーマを提案する。
次に、このスキーマを使用して、データ変換の記録とリポジトリのスタッフが完了したプロジェクト管理決定を含む一連のデータキュレーションログを注釈付けします。
最後に、大量の作業ログのキュレーションアクションの頻度を検出するために、テキスト分類器をトレーニングします。
本手法は,研究データキュレーションとデータ再利用の関係を研究する上で重要なステップとして,作業ログシステムに記録されたキュレーション作業の分析を支援する。
関連論文リスト
- In-depth analysis of recall initiators of medical devices with a Machine Learning-Natural language Processing workflow [3.392104905453323]
この研究は、2018年から2024年までの医療機器リコールデータベースに基づいて、医療機器リコール開始者を特定し、評価し、分析した。
その結果、ノイズクラスタリングアルゴリズムを用いたアプリケーションにおける教師なし密度に基づく空間クラスタリングは、それぞれのリコール開始器を特定の方法で提示できることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:38:49Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors [56.554277096170246]
In-the-wildデータ収集に焦点をあてたユーザスタディにおいて,一般的な4つのアノテーション手法の評価と対比を行う実験的検討を行った。
実際の記録プロセス中に参加者がアノテートするユーザ主導のin situアノテーションと、各日の終わりに参加者が振り返ってアノテートするリコールメソッドの両方に対して、参加者は自身のアクティビティクラスと対応するラベルを選択できる柔軟性を持っていた。
論文 参考訳(メタデータ) (2023-05-15T16:02:56Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Is More Data All You Need? A Causal Exploration [4.756600446882457]
因果分析は、医療や経済学において、行動や政策の影響についての洞察を得るためにしばしば用いられる。
本稿では,データセット介入が画像分類モデルの出力に与える影響について検討する。
論文 参考訳(メタデータ) (2022-06-06T08:02:54Z) - Transfer Learning in Conversational Analysis through Reusing
Preprocessing Data as Supervisors [52.37504333689262]
単一タスク学習におけるノイズの多いラベルの使用は、過度に適合するリスクを増大させる。
補助的なタスクは、同じトレーニング中に一次タスク学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-12-02T08:40:42Z) - CLIP: A Dataset for Extracting Action Items for Physicians from Hospital
Discharge Notes [17.107315598110183]
我々はMIMIC-III上に注釈付けされた臨床行動項目のデータセットを作成する。
このデータセットはCLIPと呼ばれ、医師によって注釈付けされ、1万の文章を表す文書をカバーしています。
本稿では,これらの文書からアクション項目を抽出するタスクを多アスペクト抽出要約として記述する。
論文 参考訳(メタデータ) (2021-06-04T14:49:02Z) - Causal Inference for Time series Analysis: Problems, Methods and
Evaluation [11.925605453634638]
時系列データ(英: Time series data)は、医学や金融などの分野によって生成される時系列観測の集合である。
本稿では,時系列データに対する治療効果推定と因果探索という2つの因果推論タスクに着目した。
論文 参考訳(メタデータ) (2021-02-11T03:26:11Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - ODVICE: An Ontology-Driven Visual Analytic Tool for Interactive Cohort
Extraction [2.0131681387862153]
一般的な疾患では、EHRから抽出されたコホートは非常に限られた数の記録を含んでいる。
本稿では,モンテカルログラフスパンニングアルゴリズムを用いたデータ拡張フレームワークODVICEを提案する。
以上の結果から, ODVICE拡張コーホートの予測性能は, 非拡張データセットよりも曲線下面積(AUC)が30%向上していることが示唆された。
論文 参考訳(メタデータ) (2020-05-13T17:15:51Z) - A Review of Computational Approaches for Evaluation of Rehabilitation
Exercises [58.720142291102135]
本稿では,モーションキャプチャシステムを用いたリハビリテーションプログラムにおける患者のパフォーマンスを評価するための計算手法についてレビューする。
エクササイズ評価のための再検討された計算手法は, 離散的な運動スコア, ルールベース, テンプレートベースアプローチの3つのカテゴリに分類される。
論文 参考訳(メタデータ) (2020-02-29T22:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。