論文の概要: NOWJ @BioCreative IX ToxHabits: An Ensemble Deep Learning Approach for Detecting Substance Use and Contextual Information in Clinical Texts
- arxiv url: http://arxiv.org/abs/2602.09469v1
- Date: Tue, 10 Feb 2026 07:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.419424
- Title: NOWJ @BioCreative IX ToxHabits: An Ensemble Deep Learning Approach for Detecting Substance Use and Contextual Information in Clinical Texts
- Title(参考訳): NOWJ @BioCreative IX ToxHabits: 臨床テキスト中の物質利用と文脈情報を検出するための深層学習アプローチ
- Authors: Huu-Huy-Hoang Tran, Gia-Bao Duong, Quoc-Viet-Anh Tran, Thi-Hai-Yen Vuong, Hoang-Quynh Le,
- Abstract要約: バイオCreative IXのToxHabits Shared TaskにNOWJを提出する。
この課題は、スペインの臨床文献における有害物質の使用と文脈的属性の検出を目標とする。
本システムでは、BETOとCRF層を統合してシーケンスラベリングを行い、多様なトレーニング戦略を採用し、文フィルタリングを用いて精度を向上させる。
- 参考スコア(独自算出の注目度): 0.09320657506524148
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting drug use information from unstructured Electronic Health Records remains a major challenge in clinical Natural Language Processing. While Large Language Models demonstrate advancements, their use in clinical NLP is limited by concerns over trust, control, and efficiency. To address this, we present NOWJ submission to the ToxHabits Shared Task at BioCreative IX. This task targets the detection of toxic substance use and contextual attributes in Spanish clinical texts, a domain-specific, low-resource setting. We propose a multi-output ensemble system tackling both Subtask 1 - ToxNER and Subtask 2 - ToxUse. Our system integrates BETO with a CRF layer for sequence labeling, employs diverse training strategies, and uses sentence filtering to boost precision. Our top run achieved 0.94 F1 and 0.97 precision for Trigger Detection, and 0.91 F1 for Argument Detection.
- Abstract(参考訳): 構造化されていない電子健康記録から薬物使用情報を抽出することは、臨床自然言語処理において大きな課題である。
大規模言語モデルは進歩を示すが、臨床NLPでの使用は、信頼、制御、効率に関する懸念によって制限される。
これを解決するため,バイオクリーティブIXのToxHabits Shared TaskにNOWJを提出する。
本課題は, 地域固有の低リソース設定であるスペインの臨床テキストにおける有毒物質の使用状況と文脈的属性の検出を目標とする。
本稿では,Subtask 1 - ToxNER と Subtask 2 - ToxUse を併用したマルチ出力アンサンブルシステムを提案する。
本システムでは、BETOとCRF層を統合してシーケンスラベリングを行い、多様なトレーニング戦略を採用し、文フィルタリングを用いて精度を向上させる。
我々のトップランは、トリガー検出で0.94F1と0.97精度、引数検出で0.91F1を達成した。
関連論文リスト
- Text Detoxification in isiXhosa and Yorùbá: A Cross-Lingual Machine Learning Approach for Low-Resource African Languages [0.0]
Toxic Languageは、安全なオンライン参加のための大きな障壁の1つだが、アフリカ言語では堅牢な緩和ツールが不足している。
本研究は,2つの低資源アフリカ言語isiXhosaとYorbの自動テキストデトックス化(中和に有害な)について検討した。
論文 参考訳(メタデータ) (2026-01-09T08:28:58Z) - Efficient extraction of medication information from clinical notes: an evaluation in two languages [2.5610226051536578]
本稿では,患者の治療体制に関連する物質とその関係を抽出するためのトランスフォーマーベースのアーキテクチャを提案する。
提案手法を用いて, ホピトー大学ストラスブール校の注釈付きコーパスを用いて, フランスの臨床ノートのモデルを訓練し, 評価した。
論文 参考訳(メタデータ) (2025-02-05T15:13:08Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - NLNDE: Enhancing Neural Sequence Taggers with Attention and Noisy
Channel for Robust Pharmacological Entity Detection [11.98821166621488]
我々は,BioNLP Open Shared Tasks 2019のPharmaCoNERコンペティションの最初のサブトラックに参加したシステムについて述べる。
提案システムは,特に異なる技術を組み合わせることで,有望な結果を達成し,競争において最大88.6%のF1に達する。
論文 参考訳(メタデータ) (2020-07-02T11:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。