論文の概要: ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development
- arxiv url: http://arxiv.org/abs/2304.14405v1
- Date: Thu, 27 Apr 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:55:47.207085
- Title: ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development
- Title(参考訳): ViMQ: 医療対話システム開発のためのベトナムの医療質問データセット
- Authors: Ta Duc Huy, Nguyen Anh Tu, Tran Hoang Vu, Nguyen Phuc Minh, Nguyen
Phan, Trung H. Bui, Steven Q. H. Truong
- Abstract要約: ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
- 参考スコア(独自算出の注目度): 1.4315915057750197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing medical text datasets usually take the form of ques- tion and answer
pairs that support the task of natural language gener- ation, but lacking the
composite annotations of the medical terms. In this study, we publish a
Vietnamese dataset of medical questions from patients with sentence-level and
entity-level annotations for the Intent Classification and Named Entity
Recognition tasks. The tag sets for two tasks are in medical domain and can
facilitate the development of task- oriented healthcare chatbots with better
comprehension of queries from patients. We train baseline models for the two
tasks and propose a simple self-supervised training strategy with span-noise
modelling that substan- tially improves the performance. Dataset and code will
be published at https://github.com/tadeephuy/ViMQ
- Abstract(参考訳): 既存の医学テキストデータセットは、通常、自然言語生成のタスクをサポートするが、医学用語の複合アノテーションが欠如しているques-tionと answer pairの形式を取る。
本研究では,Intent Classification と Named Entity Recognition タスクのために,文レベルおよびエンティティレベルのアノテーションを持つ患者から,ベトナムの医療質問のデータセットを公開する。
2つのタスクのタグセットは医療領域にあり、患者からのクエリをより理解したタスク指向のヘルスケアチャットボットの開発を容易にする。
2つのタスクのベースラインモデルをトレーニングし,スパンノイズモデルを用いた単純な自己教師付きトレーニング戦略を提案する。
Datasetとコードはhttps://github.com/tadeephuy/ViMQで公開される
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations [23.437292621092823]
本研究は,医学史研究のための英語における医師と患者との対話のデータセットであるMedictoDを紹介する。
医療領域に合わせたアンケートに基づくラベリング手法を考案する。
そして、医療専門家は高品質の包括的なアノテーションでデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-18T06:38:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - Towards an Automated SOAP Note: Classifying Utterances from Medical
Conversations [0.6875312133832078]
我々は、(i)SOAPセクションと(ii)話者の役割に従って、医療会話から発話を分類するためのギャップを橋渡しします。
本稿では,既存のディープラーニングアーキテクチャを上記の2つのタスクに適応させるシステム分析を提案する。
その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。
論文 参考訳(メタデータ) (2020-07-17T04:19:30Z) - Self-Attention Enhanced Patient Journey Understanding in Healthcare
System [43.11457142941327]
MusaNetは、長い活動の連続である患者旅行の表現を学ぶように設計されている。
MusaNetは、EHRから派生したトレーニングデータを使用して、エンドツーエンドでトレーニングされる。
提案したMusaNetは最先端のベースライン法よりも高品質な表現を実現している。
論文 参考訳(メタデータ) (2020-06-15T10:32:36Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。