論文の概要: MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction
- arxiv url: http://arxiv.org/abs/2405.18015v2
- Date: Fri, 22 Nov 2024 21:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:07.560358
- Title: MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction
- Title(参考訳): MultiADE: 逆ドラッグイベント抽出のためのマルチドメインベンチマーク
- Authors: Xiang Dai, Sarvnaz Karimi, Abeed Sarker, Ben Hachey, Cecile Paris,
- Abstract要約: アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
- 参考スコア(独自算出の注目度): 11.458594744457521
- License:
- Abstract: Active adverse event surveillance monitors Adverse Drug Events (ADE) from different data sources, such as electronic health records, medical literature, social media and search engine logs. Over the years, many datasets have been created, and shared tasks have been organised to facilitate active adverse event surveillance. However, most - if not all - datasets or shared tasks focus on extracting ADEs from a particular type of text. Domain generalisation - the ability of a machine learning model to perform well on new, unseen domains (text types) - is under-explored. Given the rapid advancements in natural language processing, one unanswered question is how far we are from having a single ADE extraction model that is effective on various types of text, such as scientific literature and social media posts. We contribute to answering this question by building a multi-domain benchmark for adverse drug event extraction, which we named MultiADE. The new benchmark comprises several existing datasets sampled from different text types and our newly created dataset - CADECv2, which is an extension of CADEC, covering online posts regarding more diverse drugs than CADEC. Our new dataset is carefully annotated by human annotators following detailed annotation guidelines. Our benchmark results show that the generalisation of the trained models is far from perfect, making it infeasible to be deployed to process different types of text. In addition, although intermediate transfer learning is a promising approach to utilising existing resources, further investigation is needed on methods of domain adaptation, particularly cost-effective methods to select useful training instances. The newly created CADECv2 and the scripts for building the benchmark are publicly available at CSIRO's Data Portal.
- Abstract(参考訳): アクティブな有害事象監視は、電子健康記録、医療文献、ソーシャルメディア、検索エンジンログなど、さまざまなデータソースからの逆薬物イベント(ADE)を監視する。
長年にわたり、多くのデータセットが作成され、アクティブな有害事象監視を促進するために共有タスクが編成されてきた。
しかしながら、ほとんどの - すべてではないとしても - データセットや共有タスクは、特定のタイプのテキストからADEを抽出することに集中している。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
自然言語処理の急速な進歩を考えると、科学文献やソーシャルメディア投稿など、さまざまな種類のテキストに有効なADE抽出モデルが1つしかないことは、疑問視されている。
我々は,MultiADEと名付けた有害薬物イベント抽出のためのマルチドメインベンチマークを構築することで,この問題に対処することに貢献する。
新しいベンチマークは、異なるテキストタイプからサンプリングされたいくつかの既存のデータセットと、CADECの拡張であるCADECv2で構成され、CADECよりも多様な薬物に関するオンライン投稿をカバーしている。
我々の新しいデータセットは、詳細なアノテーションガイドラインに従って、人間のアノテーションによって慎重に注釈付けされます。
ベンチマークの結果、トレーニングされたモデルの一般化は完璧には程遠いことを示し、異なるタイプのテキストを処理するためにデプロイすることは不可能である。
さらに、中間転写学習は既存のリソースを活用するための有望なアプローチであるが、ドメイン適応の手法、特に有用なトレーニングインスタンスを選択するための費用対効果に関するさらなる調査が必要である。
新しく作成されたCADECv2とベンチマークを構築するためのスクリプトは、CSIROのData Portalで公開されている。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks [4.06061049778407]
イベント・データ(英: Event data)とは、テキストから自動的に抽出される、誰が何をしたかの構造化された記録であり、国際政治学者にとって重要なデータ源である。
自然言語処理(NLP)の最近の進歩をもとに,効率的なイベントデータ生成のための「トリックの袋」について述べる。
本稿では,これらの技術がICEWSを置き換えることを意図した,新しいPOLECATグローバルイベントデータセットの作成方法について述べる。
論文 参考訳(メタデータ) (2023-04-03T19:51:00Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - A Span Extraction Approach for Information Extraction on Visually-Rich
Documents [2.3131309703965135]
視覚豊かな文書(VRD)を事前学習する言語モデルの能力向上のための新しいアプローチを提案する。
まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。
また、文書内の意味的エンティティ間の関係をモデル化することに焦点を当てた新しいトレーニングタスクを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:50:04Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。