論文の概要: ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development
- arxiv url: http://arxiv.org/abs/2304.14405v1
- Date: Thu, 27 Apr 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:55:47.207085
- Title: ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development
- Title(参考訳): ViMQ: 医療対話システム開発のためのベトナムの医療質問データセット
- Authors: Ta Duc Huy, Nguyen Anh Tu, Tran Hoang Vu, Nguyen Phuc Minh, Nguyen
Phan, Trung H. Bui, Steven Q. H. Truong
- Abstract要約: ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
- 参考スコア(独自算出の注目度): 1.4315915057750197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing medical text datasets usually take the form of ques- tion and answer
pairs that support the task of natural language gener- ation, but lacking the
composite annotations of the medical terms. In this study, we publish a
Vietnamese dataset of medical questions from patients with sentence-level and
entity-level annotations for the Intent Classification and Named Entity
Recognition tasks. The tag sets for two tasks are in medical domain and can
facilitate the development of task- oriented healthcare chatbots with better
comprehension of queries from patients. We train baseline models for the two
tasks and propose a simple self-supervised training strategy with span-noise
modelling that substan- tially improves the performance. Dataset and code will
be published at https://github.com/tadeephuy/ViMQ
- Abstract(参考訳): 既存の医学テキストデータセットは、通常、自然言語生成のタスクをサポートするが、医学用語の複合アノテーションが欠如しているques-tionと answer pairの形式を取る。
本研究では,Intent Classification と Named Entity Recognition タスクのために,文レベルおよびエンティティレベルのアノテーションを持つ患者から,ベトナムの医療質問のデータセットを公開する。
2つのタスクのタグセットは医療領域にあり、患者からのクエリをより理解したタスク指向のヘルスケアチャットボットの開発を容易にする。
2つのタスクのベースラインモデルをトレーニングし,スパンノイズモデルを用いた単純な自己教師付きトレーニング戦略を提案する。
Datasetとコードはhttps://github.com/tadeephuy/ViMQで公開される
関連論文リスト
- MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English
Clinical Queries [16.101969130235055]
本稿では,Multimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。
このデータセットは、ヒンディー語と英語の混成医療クエリと視覚支援を組み合わせたものだ。
データセット、コード、トレーニング済みのモデルを公開します。
論文 参考訳(メタデータ) (2024-01-03T07:58:25Z) - PULSAR: Pre-training with Extracted Healthcare Terms for Summarising
Patients' Problems and Data Augmentation with Black-box Large Language Models [25.363775123262307]
問題リストの形で患者の問題を自動的に要約することで、ステークホルダーが患者の状態を理解し、作業負荷と認知バイアスを減らすのに役立つ。
BioNLP 2023 共有タスク1Aは、入院中の提供者の進捗状況から診断と問題のリストを作成することに焦点を当てている。
1つのコンポーネントは、データ拡張のために大きな言語モデル(LLM)を使用し、もう1つは、リストとして要約された患者の問題を生成するための、新しいトレーニング済みの目標を持つ抽象的な要約 LLM である。
私たちのアプローチは、共有タスクへの全提出のうち、第2位でした。
論文 参考訳(メタデータ) (2023-06-05T10:17:50Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z) - Towards an Automated SOAP Note: Classifying Utterances from Medical
Conversations [0.6875312133832078]
我々は、(i)SOAPセクションと(ii)話者の役割に従って、医療会話から発話を分類するためのギャップを橋渡しします。
本稿では,既存のディープラーニングアーキテクチャを上記の2つのタスクに適応させるシステム分析を提案する。
その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。
論文 参考訳(メタデータ) (2020-07-17T04:19:30Z) - Self-Attention Enhanced Patient Journey Understanding in Healthcare
System [43.11457142941327]
MusaNetは、長い活動の連続である患者旅行の表現を学ぶように設計されている。
MusaNetは、EHRから派生したトレーニングデータを使用して、エンドツーエンドでトレーニングされる。
提案したMusaNetは最先端のベースライン法よりも高品質な表現を実現している。
論文 参考訳(メタデータ) (2020-06-15T10:32:36Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。