論文の概要: COMETA: A Corpus for Medical Entity Linking in the Social Media
- arxiv url: http://arxiv.org/abs/2010.03295v2
- Date: Thu, 8 Oct 2020 12:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:10:53.073018
- Title: COMETA: A Corpus for Medical Entity Linking in the Social Media
- Title(参考訳): COMETA: ソーシャルメディアにおける医療エンティティリンクのためのコーパス
- Authors: Marco Basaldella, Fangyu Liu, Ehsan Shareghi and Nigel Collier
- Abstract要約: われわれは、Redditの専門家がSNOMED CTへのリンクを付加した20万の英語バイオメディカルエンティティからなるCOMETAという新しいコーパスを紹介した。
私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しています。
2つの挑戦的な評価シナリオの下で、エンティティや概念に関する複雑な推論を行うことのできる、これらのシステムの能力に光を当てた。
- 参考スコア(独自算出の注目度): 27.13349965075764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whilst there has been growing progress in Entity Linking (EL) for general
language, existing datasets fail to address the complex nature of health
terminology in layman's language. Meanwhile, there is a growing need for
applications that can understand the public's voice in the health domain. To
address this we introduce a new corpus called COMETA, consisting of 20k English
biomedical entity mentions from Reddit expert-annotated with links to SNOMED
CT, a widely-used medical knowledge graph. Our corpus satisfies a combination
of desirable properties, from scale and coverage to diversity and quality, that
to the best of our knowledge has not been met by any of the existing resources
in the field. Through benchmark experiments on 20 EL baselines from string- to
neural-based models we shed light on the ability of these systems to perform
complex inference on entities and concepts under 2 challenging evaluation
scenarios. Our experimental results on COMETA illustrate that no golden bullet
exists and even the best mainstream techniques still have a significant
performance gap to fill, while the best solution relies on combining different
views of data.
- Abstract(参考訳): 汎用言語におけるエンティティリンク(EL)の進歩は進んでいるが、既存のデータセットは、平凡な言語における健康用語の複雑な性質に対処できない。
一方、健康領域における公衆の声を理解できるアプリケーションの必要性はますます高まっている。
これに対処するために、redditの専門家による20万の英語のバイオメディカルエンティティの言及と、広く使われている医療知識グラフであるsnomed ctへのリンクからなるcommtaという新しいコーパスを紹介します。
私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しており、私たちの知識の最も良いところは、この分野の既存のリソースに満たされていない。
文字列モデルからニューラルネットワークモデルへの20 ELベースラインのベンチマーク実験を通じて、2つの困難な評価シナリオの下で、エンティティと概念に関する複雑な推論を実行するこれらのシステムの能力に光を当てた。
COMETAの実験結果によると、黄金の弾丸は存在せず、最高の主流技術でさえも大きなパフォーマンスのギャップを埋める一方で、最良のソリューションはデータの異なるビューを組み合わせることにあります。
関連論文リスト
- BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques [0.0]
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、何百万もの臨床エンティティを格納するために開発・維持されている。
そこで本稿では,エンティティの曖昧さを解消するために,コンテキストベースとコンテキストレスの省力化手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T01:14:33Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Exploring the In-context Learning Ability of Large Language Model for
Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。
提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。
BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文 参考訳(メタデータ) (2023-07-03T16:19:50Z) - Health Status Prediction with Local-Global Heterogeneous Behavior Graph [69.99431339130105]
ウェアラブルセンサから継続的に収集される各種データストリームにより、健康状態の推定が可能です。
行動関連マルチソースデータストリームをローカル・グローバル・グラフでモデル化することを提案する。
学生生活データセットを用いて実験を行い,提案モデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-03-23T11:10:04Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - On the Combined Use of Extrinsic Semantic Resources for Medical
Information Search [0.0]
本研究は,頭部医学的概念を冗長な問合せで強調・拡張する枠組みを開発する。
また、意味的に強化された逆インデックス文書も作成する。
提案手法の有効性を実証するため,CLEF 2014データセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2020-05-17T14:18:04Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。