論文の概要: Analyzing the Granularity and Cost of Annotation in Clinical Sequence
Labeling
- arxiv url: http://arxiv.org/abs/2108.09913v1
- Date: Mon, 23 Aug 2021 03:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 22:57:59.849636
- Title: Analyzing the Granularity and Cost of Annotation in Clinical Sequence
Labeling
- Title(参考訳): 臨床シーケンスラベリングにおける注釈の粒度とコストの分析
- Authors: Haozhan Sun, Chenchen Xu, Hanna Suominen
- Abstract要約: 教師付き機械学習(ML)では、研究者にとって十分な注釈付きデータセットがこれまで以上に重要になっている。
看護シフト・チェンジハンドオーバによる臨床記録を用いたシーケンスラベリングにおけるアノテーションの粒度とML性能の関係を解析した。
我々は,テキスト知識などの他の特徴を研究者や実践者に対して,シークエンスラベリング性能を高めるためのコスト効率の高い情報源として強調することを推奨する。
- 参考スコア(独自算出の注目度): 9.143551270841858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well-annotated datasets, as shown in recent top studies, are becoming more
important for researchers than ever before in supervised machine learning (ML).
However, the dataset annotation process and its related human labor costs
remain overlooked. In this work, we analyze the relationship between the
annotation granularity and ML performance in sequence labeling, using clinical
records from nursing shift-change handover. We first study a model derived from
textual language features alone, without additional information based on
nursing knowledge. We find that this sequence tagger performs well in most
categories under this granularity. Then, we further include the additional
manual annotations by a nurse, and find the sequence tagging performance
remaining nearly the same. Finally, we give a guideline and reference to the
community arguing it is not necessary and even not recommended to annotate in
detailed granularity because of a low Return on Investment. Therefore we
recommend emphasizing other features, like textual knowledge, for researchers
and practitioners as a cost-effective source for increasing the sequence
labeling performance.
- Abstract(参考訳): 最近のトップ研究で示されているように、よく注釈付けられたデータセットは、教師付き機械学習(ML)において、これまで以上に研究者にとって重要になっている。
しかし、データセットのアノテーションプロセスとその関連する人的労働コストは見落とされ続けている。
本研究は,看護シフトチェンジハンドオーバによる臨床記録を用いて,シーケンスラベリングにおけるアノテーションの粒度とMLパフォーマンスの関係を解析する。
まず, 看護知識に基づく追加情報なしに, テキスト言語特徴のみから派生したモデルについて検討した。
このシーケンスタグは、この粒度の下のほとんどのカテゴリでよく機能する。
次に,看護婦による追加のマニュアルアノテーションを含め,ほぼ同一のシーケンスタグ付け性能を示す。
最後に,投資のリターンが低かったため,詳細な粒度に注釈を付ける必要がなく,かつ推奨されないという,コミュニティへのガイドラインと参照を与える。
したがって,テキスト知識などの他の特徴を研究者や実践者に対して,シーケンスラベリング性能を向上させるための費用対効果の高い情報源として強調することを推奨する。
関連論文リスト
- Query-Guided Self-Supervised Summarization of Nursing Notes [5.835276312834499]
本稿では,看護ノート要約のためのクエリ誘導型自己教師型ドメイン適応フレームワークQGSummを紹介する。
本手法は,基準要約に頼らず,高品質で患者中心の要約を生成する。
論文 参考訳(メタデータ) (2024-07-04T18:54:30Z) - Guidelines for Cerebrovascular Segmentation: Managing Imperfect Annotations in the context of Semi-Supervised Learning [3.231698506153459]
教師付き学習法は、十分な量のラベル付きデータを入力した場合に優れた性能を達成する。
このようなラベルは一般的に、非常に時間がかかり、エラーが発生し、製造コストがかかる。
半教師付き学習アプローチはラベル付きデータとラベルなしデータの両方を活用する。
論文 参考訳(メタデータ) (2024-04-02T09:31:06Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Enriched Annotations for Tumor Attribute Classification from Pathology
Reports with Limited Labeled Data [10.876391752581862]
患者のデータの多くは、構造化されていない自由テキストに閉じ込められ、効果的なパーソナライズされた治療の研究と提供を制限する。
我々は新しい階層型アノテーションスキームとアルゴリズムである Supervised Line Attention (SLA) を開発した。
我々は、カリフォルニア大学サンフランシスコ校の腎臓および結腸癌病理レポートの分類的腫瘍特性の予測にSLAを適用します。
論文 参考訳(メタデータ) (2020-12-15T06:31:38Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。