論文の概要: MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction
- arxiv url: http://arxiv.org/abs/2405.18015v1
- Date: Tue, 28 May 2024 09:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:18:23.819717
- Title: MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction
- Title(参考訳): MultiADE: 逆ドラッグイベント抽出のためのマルチドメインベンチマーク
- Authors: Xiang Dai, Sarvnaz Karimi, Abeed Sarker, Ben Hachey, Cecile Paris,
- Abstract要約: アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
未解決の疑問のひとつは、さまざまなタイプのテキストに有効なADE抽出モデルが1つあることから、どこまで遠いのかということです。
我々は,MultiADEと名付けた有害薬物イベント抽出のためのマルチドメインベンチマークを構築することで,この問題に対処することに貢献する。
- 参考スコア(独自算出の注目度): 11.458594744457521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective. Active adverse event surveillance monitors Adverse Drug Events (ADE) from different data sources, such as electronic health records, medical literature, social media and search engine logs. Over years, many datasets are created, and shared tasks are organised to facilitate active adverse event surveillance. However, most-if not all-datasets or shared tasks focus on extracting ADEs from a particular type of text. Domain generalisation-the ability of a machine learning model to perform well on new, unseen domains (text types)-is under-explored. Given the rapid advancements in natural language processing, one unanswered question is how far we are from having a single ADE extraction model that are effective on various types of text, such as scientific literature and social media posts}. Methods. We contribute to answering this question by building a multi-domain benchmark for adverse drug event extraction, which we named MultiADE. The new benchmark comprises several existing datasets sampled from different text types and our newly created dataset-CADECv2, which is an extension of CADEC (Karimi, et al., 2015), covering online posts regarding more diverse drugs than CADEC. Our new dataset is carefully annotated by human annotators following detailed annotation guidelines. Conclusion. Our benchmark results show that the generalisation of the trained models is far from perfect, making it infeasible to be deployed to process different types of text. In addition, although intermediate transfer learning is a promising approach to utilising existing resources, further investigation is needed on methods of domain adaptation, particularly cost-effective methods to select useful training instances.
- Abstract(参考訳): 目的。
アクティブな有害事象監視は、電子健康記録、医療文献、ソーシャルメディア、検索エンジンログなど、さまざまなデータソースからの逆薬物イベント(ADE)を監視する。
長年にわたって多くのデータセットが作成され、アクティブな有害事象監視を促進するために共有タスクが編成されている。
しかし、ほとんどの場合、全データセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 機械学習モデルが、新しい、見えないドメイン(テキストタイプ)でうまく機能する能力は、未調査である。
自然言語処理の急速な進歩を考えると、科学文献やソーシャルメディア投稿など、さまざまな種類のテキストに有効なADE抽出モデルが1つあることから、どこまで遠いのか、という疑問が浮かび上がっている。
メソッド。
我々は,MultiADEと名付けた有害薬物イベント抽出のためのマルチドメインベンチマークを構築することで,この問題に対処することに貢献する。
新しいベンチマークは、異なるテキストタイプからサンプリングされたいくつかの既存のデータセットと、CADEC(Karimi, et al , 2015)の拡張である新しく作成されたデータセットCADECv2で構成され、CADECよりも多様な薬物に関するオンライン投稿をカバーしている。
我々の新しいデータセットは、詳細なアノテーションガイドラインに従って、人間のアノテーションによって慎重に注釈付けされます。
結論。
ベンチマークの結果、トレーニングされたモデルの一般化は完璧には程遠いことを示し、異なるタイプのテキストを処理するためにデプロイすることは不可能である。
さらに、中間転写学習は既存のリソースを活用するための有望なアプローチであるが、ドメイン適応の手法、特に有用なトレーニングインスタンスを選択するための費用対効果に関するさらなる調査が必要である。
関連論文リスト
- ADer: A Comprehensive Benchmark for Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい異常検出手法のモジュラーフレームワークであるtextbftextitADerを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks [4.06061049778407]
イベント・データ(英: Event data)とは、テキストから自動的に抽出される、誰が何をしたかの構造化された記録であり、国際政治学者にとって重要なデータ源である。
自然言語処理(NLP)の最近の進歩をもとに,効率的なイベントデータ生成のための「トリックの袋」について述べる。
本稿では,これらの技術がICEWSを置き換えることを意図した,新しいPOLECATグローバルイベントデータセットの作成方法について述べる。
論文 参考訳(メタデータ) (2023-04-03T19:51:00Z) - LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network
using Transformers for Cross-Modal Information Retrieval in Histopathology
Archives [0.7614628596146599]
クロスモダリティデータ検索は多くの分野や研究分野の要件となっている。
本研究では,共同潜在空間における画像やテキストの表現を支援するために,新たな損失項を持つ新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-02T22:42:20Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。