論文の概要: Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset
- arxiv url: http://arxiv.org/abs/2508.19467v1
- Date: Tue, 26 Aug 2025 23:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.442506
- Title: Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset
- Title(参考訳): ドメインエキスパートにおける推論ギャップと名前付きエンティティ認識におけるマシンインテリジェンス
- Authors: Sumon Kanti Dey, Jeanne M. Powell, Azra Ismail, Jeanmarie Perrone, Abeed Sarker,
- Abstract要約: 非医療オピオイドの使用は公衆衛生上の緊急の課題である。
ソーシャルメディアの物語から、自己報告結果の2つのカテゴリを抽出するために、名前付きエンティティ認識(NER)フレームワークを提案する。
我々は、ゼロショットと少数ショットのインコンテキスト学習設定下で、微調整エンコーダモデルと最先端の大規模言語モデル(LLM)の両方を評価する。
- 参考スコア(独自算出の注目度): 6.343399421398501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nonmedical opioid use is an urgent public health challenge, with far-reaching clinical and social consequences that are often underreported in traditional healthcare settings. Social media platforms, where individuals candidly share first-person experiences, offer a valuable yet underutilized source of insight into these impacts. In this study, we present a named entity recognition (NER) framework to extract two categories of self-reported consequences from social media narratives related to opioid use: ClinicalImpacts (e.g., withdrawal, depression) and SocialImpacts (e.g., job loss). To support this task, we introduce RedditImpacts 2.0, a high-quality dataset with refined annotation guidelines and a focus on first-person disclosures, addressing key limitations of prior work. We evaluate both fine-tuned encoder-based models and state-of-the-art large language models (LLMs) under zero- and few-shot in-context learning settings. Our fine-tuned DeBERTa-large model achieves a relaxed token-level F1 of 0.61 [95% CI: 0.43-0.62], consistently outperforming LLMs in precision, span accuracy, and adherence to task-specific guidelines. Furthermore, we show that strong NER performance can be achieved with substantially less labeled data, emphasizing the feasibility of deploying robust models in resource-limited settings. Our findings underscore the value of domain-specific fine-tuning for clinical NLP tasks and contribute to the responsible development of AI tools that may enhance addiction surveillance, improve interpretability, and support real-world healthcare decision-making. The best performing model, however, still significantly underperforms compared to inter-expert agreement (Cohen's kappa: 0.81), demonstrating that a gap persists between expert intelligence and current state-of-the-art NER/AI capabilities for tasks requiring deep domain knowledge.
- Abstract(参考訳): 非医療オピオイドの使用は公衆衛生上の緊急の課題であり、従来の医療環境では報告されていないような、臨床や社会的な影響が広範囲に及んでいる。
個人が一人称体験を共有できるソーシャルメディアプラットフォームは、これらの影響に関する貴重な知識を提供する。
本研究では,オピオイドの使用に関連するソーシャルメディアの物語から,自己申告結果の2つのカテゴリを抽出する,名前付きエンティティ認識(NER)フレームワークを提案する。
このタスクをサポートするために、RedditImpacts 2.0を紹介します。
我々は、ゼロショットと少数ショットのインコンテキスト学習設定下で、微調整エンコーダモデルと最先端の大規模言語モデル(LLM)の両方を評価する。
細調整のDeBERTa-largeモデルでは,ゆるやかなトークンレベルF1を0.61(95% CI: 0.43-0.62)で達成する。
さらに、リソース制限された設定でロバストなモデルをデプロイする可能性を強調し、ラベル付きデータを大幅に少なくすることで、強力なNER性能を実現することができることを示す。
我々の研究は、臨床NLPタスクにおけるドメイン固有の微調整の価値を強調し、中毒の監視を強化し、解釈可能性を改善し、現実の医療意思決定を支援するAIツールの開発に寄与する。
しかしながら、最高のパフォーマンスモデルは、専門家間の合意(Cohen's kappa: 0.81)と比較すると、依然として大幅にパフォーマンスが低下しており、深いドメイン知識を必要とするタスクに対して、専門家の知性と現在の最先端のNER/AI能力の間のギャップが持続することを示している。
関連論文リスト
- Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models [21.427976533706737]
我々は,多センサデータから臨床的に有用な知見を合成するために,大規模言語モデルを活用する新しいアプローチを採っている。
うつ病や不安などの症状とデータの傾向がどのように関連しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。
GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は、この手法を用いて自己追跡データを解釈することへの強い関心を表明している。
論文 参考訳(メタデータ) (2023-11-21T23:53:27Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。