論文の概要: Learning Contextualized Document Representations for Healthcare Answer
Retrieval
- arxiv url: http://arxiv.org/abs/2002.00835v1
- Date: Mon, 3 Feb 2020 15:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:57:07.429590
- Title: Learning Contextualized Document Representations for Healthcare Answer
Retrieval
- Title(参考訳): 医療回答検索のための文脈化文書表現の学習
- Authors: Sebastian Arnold, Betty van Aken, Paul Grundmann, Felix A. Gers,
Alexander L\"oser
- Abstract要約: コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 68.02029435111193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Contextual Discourse Vectors (CDV), a distributed document
representation for efficient answer retrieval from long healthcare documents.
Our approach is based on structured query tuples of entities and aspects from
free text and medical taxonomies. Our model leverages a dual encoder
architecture with hierarchical LSTM layers and multi-task training to encode
the position of clinical entities and aspects alongside the document discourse.
We use our continuous representations to resolve queries with short latency
using approximate nearest neighbor search on sentence level. We apply the CDV
model for retrieving coherent answer passages from nine English public health
resources from the Web, addressing both patients and medical professionals.
Because there is no end-to-end training data available for all application
scenarios, we train our model with self-supervised data from Wikipedia. We show
that our generalized model significantly outperforms several state-of-the-art
baselines for healthcare passage ranking and is able to adapt to heterogeneous
domains without additional fine-tuning.
- Abstract(参考訳): 本稿では,長期医療文書からの効率的な回答検索のための分散文書表現であるContentual Discourse Vectors (CDV)を提案する。
このアプローチは、自由テキストと医学的分類のエンティティとアスペクトの構造化クエリタプルに基づいています。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
文レベルの近接探索を用いて,短いレイテンシでクエリを解決するために,連続表現を用いる。
患者と医療従事者の双方に対処し、ウェブから9つの英国公衆衛生資源からコヒーレントな回答パスを取得するためにCDVモデルを適用した。
すべてのアプリケーションシナリオにエンドツーエンドのトレーニングデータがないため、Wikipediaから自己教師付きデータでモデルをトレーニングします。
我々の一般化モデルは、医療パスランキングにおける最先端のベースラインを著しく上回り、追加の微調整なしに異種領域に適応できることを示す。
関連論文リスト
- Large Language Model in Medical Informatics: Direct Classification and Enhanced Text Representations for Automatic ICD Coding [7.0413463890126735]
本稿では,大規模言語モデル(LLM: Large Language Models),特にLLAMAアーキテクチャを用いて,ICDのコード分類を強化する。
我々はこれらの手法を最先端の手法と比較することで評価する。
論文 参考訳(メタデータ) (2024-11-11T09:31:46Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Towards an Automated SOAP Note: Classifying Utterances from Medical
Conversations [0.6875312133832078]
我々は、(i)SOAPセクションと(ii)話者の役割に従って、医療会話から発話を分類するためのギャップを橋渡しします。
本稿では,既存のディープラーニングアーキテクチャを上記の2つのタスクに適応させるシステム分析を提案する。
その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。
論文 参考訳(メタデータ) (2020-07-17T04:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。