論文の概要: Scaling Public Health Text Annotation: Zero-Shot Learning vs. Crowdsourcing for Improved Efficiency and Labeling Accuracy
- arxiv url: http://arxiv.org/abs/2502.06150v1
- Date: Mon, 10 Feb 2025 04:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:49.919724
- Title: Scaling Public Health Text Annotation: Zero-Shot Learning vs. Crowdsourcing for Improved Efficiency and Labeling Accuracy
- Title(参考訳): パブリックヘルステキストアノテーションのスケーリング: ゼロショット学習とクラウドソーシングによる効率向上とラベル付けの精度向上
- Authors: Kamyar Kazari, Yong Chen, Zahra Shakeri,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いたゼロショットラベリングが,睡眠障害,身体活動,鎮静行動に関連するTwitter投稿の従来のクラウドソースアノテーションと一致するか,あるいは超えるかを検討する。
以上の結果から, LLMは, 素早い分類作業において人的パフォーマンスと競合し, ラベル付け時間を大幅に短縮するが, その精度は, より曖昧なドメイン知識を必要とするタスクに対して低下することが示唆された。
- 参考スコア(独自算出の注目度): 2.7906965171319715
- License:
- Abstract: Public health researchers are increasingly interested in using social media data to study health-related behaviors, but manually labeling this data can be labor-intensive and costly. This study explores whether zero-shot labeling using large language models (LLMs) can match or surpass conventional crowd-sourced annotation for Twitter posts related to sleep disorders, physical activity, and sedentary behavior. Multiple annotation pipelines were designed to compare labels produced by domain experts, crowd workers, and LLM-driven approaches under varied prompt-engineering strategies. Our findings indicate that LLMs can rival human performance in straightforward classification tasks and significantly reduce labeling time, yet their accuracy diminishes for tasks requiring more nuanced domain knowledge. These results clarify the trade-offs between automated scalability and human expertise, demonstrating conditions under which LLM-based labeling can be efficiently integrated into public health research without undermining label quality.
- Abstract(参考訳): 公衆衛生研究者は、ソーシャルメディアデータを使って健康関連行動を研究することに興味がますます高まっているが、手作業でこのデータをラベル付けすることは、労働集約的でコストがかかる可能性がある。
本研究では,大規模言語モデル(LLM)を用いたゼロショットラベリングが,睡眠障害,身体活動,鎮静行動に関連するTwitter投稿の従来のクラウドソースアノテーションと一致するか,あるいは超えるかを検討する。
複数のアノテーションパイプラインは、さまざまなプロンプトエンジニアリング戦略の下で、ドメインの専門家、クラウドワーカー、LLM駆動のアプローチによって生成されたラベルを比較するように設計されている。
以上の結果から, LLMは, 素早い分類作業において人的パフォーマンスと競合し, ラベル付け時間を大幅に短縮するが, その精度は, より曖昧なドメイン知識を必要とするタスクに対して低下することが示唆された。
これらの結果から, ラベル品質を損なうことなく, LLMをベースとしたラベル付けを公衆衛生研究に効率的に組み込むことができる状況を示すとともに, 自動スケーラビリティと人的専門知識のトレードオフを明らかにした。
関連論文リスト
- Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI [0.0]
我々は、GPT-4を使用して、パスワードで保護された11のデータセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
本研究は,人間中心のワークフローと注意深い評価基準の重要性を裏付けるものである。
論文 参考訳(メタデータ) (2024-09-14T15:27:43Z) - LLMs Accelerate Annotation for Medical Information Extraction [7.743388571513413]
本稿では,LLM(Large Language Models)と人間の専門知識を組み合わせた手法を提案する。
医療情報抽出タスクにおいて,我々の手法を厳格に評価し,我々のアプローチが人的介入を大幅に削減するだけでなく,高い精度を維持していることを示す。
論文 参考訳(メタデータ) (2023-12-04T19:26:13Z) - Making Self-supervised Learning Robust to Spurious Correlation via
Learning-speed Aware Sampling [26.444935219428036]
自己教師付き学習(SSL)は、ラベルのないデータからリッチな表現を学ぶための強力なテクニックとして登場した。
現実の環境では、いくつかの属性(例えば、人種、性別、年齢)と下流タスクのラベルの間に急激な相関関係がしばしば存在する。
学習速度に逆相関する確率でトレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-27T22:52:45Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Can large language models build causal graphs? [54.74910640970968]
大規模言語モデル(LLM)は因果グラフの構築プロセスを容易にする機会である。
LLMは、ユーザが使用する単語、コンテキスト、およびプロンプトの選定に脆弱であることが示されている。
論文 参考訳(メタデータ) (2023-03-07T22:05:31Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Graph-based Semi-supervised Learning: A Comprehensive Review [51.26862262550445]
半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。
重要なSSLメソッドのクラスは、グラフベースの半教師付き学習(GSSL)メソッドに対応するグラフとしてデータを自然に表現することです。
GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。
論文 参考訳(メタデータ) (2021-02-26T05:11:09Z) - Self-supervised transfer learning of physiological representations from
free-living wearable data [12.863826659440026]
意味ラベルのない活動・心拍(HR)信号を用いた新しい自己教師型表現学習法を提案する。
我々は、我々のモデルを、最大の自由生活複合センシングデータセット(手首加速度計とウェアラブル心電図データによる280k時間)で評価する。
論文 参考訳(メタデータ) (2020-11-18T23:21:34Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。