論文の概要: DART: A Structured Dataset of Regulatory Drug Documents in Italian for Clinical NLP
- arxiv url: http://arxiv.org/abs/2510.18475v1
- Date: Tue, 21 Oct 2025 09:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.342363
- Title: DART: A Structured Dataset of Regulatory Drug Documents in Italian for Clinical NLP
- Title(参考訳): DART: イタリアにおける臨床NLPのための規制薬物文書の構造的データセット
- Authors: Mariano Barone, Antonio Laudante, Giuseppe Riccio, Antonio Romano, Marco Postiglione, Vincenzo Moscato,
- Abstract要約: DARTは、イタリア医薬品庁(AIFA)の製品特性に関するイタリアの要約の構造化コーパスである。
これは、指標、副作用反応、薬物と薬物の相互作用などの重要な薬理学領域に関する構造化情報を提供する。
臨床的に有意な相互作用を推測するために,このデータセットを利用したLSMベースの薬物相互作用チェッカーを実装した。
- 参考スコア(独自算出の注目度): 10.905164788230913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of pharmacological knowledge from regulatory documents has become a key focus in biomedical natural language processing, with applications ranging from adverse event monitoring to AI-assisted clinical decision support. However, research in this field has predominantly relied on English-language corpora such as DrugBank, leaving a significant gap in resources tailored to other healthcare systems. To address this limitation, we introduce DART (Drug Annotation from Regulatory Texts), the first structured corpus of Italian Summaries of Product Characteristics derived from the official repository of the Italian Medicines Agency (AIFA). The dataset was built through a reproducible pipeline encompassing web-scale document retrieval, semantic segmentation of regulatory sections, and clinical summarization using a few-shot-tuned large language model with low-temperature decoding. DART provides structured information on key pharmacological domains such as indications, adverse drug reactions, and drug-drug interactions. To validate its utility, we implemented an LLM-based drug interaction checker that leverages the dataset to infer clinically meaningful interactions. Experimental results show that instruction-tuned LLMs can accurately infer potential interactions and their clinical implications when grounded in the structured textual fields of DART. We publicly release our code on GitHub: https://github.com/PRAISELab-PicusLab/DART.
- Abstract(参考訳): 規制文書からの薬理学的知識の抽出は、有害事象監視からAI支援臨床決定支援に至るまで、バイオメディカル自然言語処理において重要な焦点となっている。
しかし、この分野での研究は、ドラッグバンクのような英語のコーパスに大きく依存しており、他の医療システムに合わせたリソースのかなりの差を残している。
この制限に対処するため、イタリア医薬品庁(AIFA)の公式レポジトリから派生した、イタリア製品特性の要約の最初の構造化コーパスであるDART(Drug Annotation from Regulatory Texts)を紹介する。
このデータセットは、ウェブスケールの文書検索、規制区間のセマンティックセマンティックセグメンテーション、低温デコーディングによる数ショットチューニングされた大規模言語モデルによる臨床要約を含む再現可能なパイプラインを通して構築された。
DARTは、表示、有害薬物反応、薬物と薬物の相互作用などの重要な薬理学領域に関する構造化情報を提供する。
臨床的に有意な相互作用を推測するために,このデータセットを利用したLSMベースの薬物相互作用チェッカーを実装した。
実験結果から,DARTの構造化テキスト分野における潜在的相互作用と臨床的意味を正確に推測できることが示唆された。
私たちはGitHubでコードを公開しています。
関連論文リスト
- Empowering Healthcare Practitioners with Language Models: Structuring Speech Transcripts in Two Real-World Clinical Applications [5.91866991540808]
2つの高インパクトNLPタスクは、データの不足と感度のために未探索のままである。
これらの現実の臨床的タスクに対する実践的な解決策は、医療提供者に対するドキュメントの負担を大幅に減らすことができる。
我々は,看護師観察と医療秩序抽出のための最初のオープンソースデータセットであるSynURとSIMORDをリリースする。
論文 参考訳(メタデータ) (2025-07-07T22:29:29Z) - INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning [6.849511893206566]
我々は,抽出した医療用語をSNOMED-CTコードと英国国定公式コードにマッピングするエンティティリンク機能を構築した。
私たちのモデルのツールキットとデスクトップアプリケーションは公開されています。
論文 参考訳(メタデータ) (2024-09-28T22:06:06Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Towards Incorporating Entity-specific Knowledge Graph Information in
Predicting Drug-Drug Interactions [1.14219428942199]
本稿では,他のバイオメディカル・エンティティとの相互作用から得られる薬物の埋め込みと,ドメイン固有のBioBERT埋め込みに基づくRCアーキテクチャを組み合わせる新しい手法であるBERTKG-DDIを提案する。
DDIExtraction 2013 コーパスで行った実験では、この戦略が他のベースラインアーキテクチャを4.1%マクロF1スコアで改善することを明確に示している。
論文 参考訳(メタデータ) (2020-12-21T06:44:32Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。