論文の概要: Intent Identification and Entity Extraction for Healthcare Queries in
Indic Languages
- arxiv url: http://arxiv.org/abs/2302.09685v1
- Date: Sun, 19 Feb 2023 22:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:03:35.059581
- Title: Intent Identification and Entity Extraction for Healthcare Queries in
Indic Languages
- Title(参考訳): インダクタンス言語における医療用クエリのインテント識別とエンティティ抽出
- Authors: Ankan Mullick, Ishani Mondal, Sourjyadip Ray, R Raghav, G Sai
Chaitanya, Pawan Goyal
- Abstract要約: インドのような先進国では、データとリソース不足言語の技術的な制限が、医療のための高度なNLUシステムの開発に脅威をもたらしている。
本稿では、2つの異なるヘルスケアデータセットを提案する。
我々の目標は、クエリインテントを検出し、対応するエンティティを抽出することである。
- 参考スコア(独自算出の注目度): 16.39183257795811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scarcity of data and technological limitations for resource-poor languages in
developing countries like India poses a threat to the development of
sophisticated NLU systems for healthcare. To assess the current status of
various state-of-the-art language models in healthcare, this paper studies the
problem by initially proposing two different Healthcare datasets, Indian
Healthcare Query Intent-WebMD and 1mg (IHQID-WebMD and IHQID-1mg) and one real
world Indian hospital query data in English and multiple Indic languages
(Hindi, Bengali, Tamil, Telugu, Marathi and Gujarati) which are annotated with
the query intents as well as entities. Our aim is to detect query intents and
extract corresponding entities. We perform extensive experiments on a set of
models in various realistic settings and explore two scenarios based on the
access to English data only (less costly) and access to target language data
(more expensive). We analyze context specific practical relevancy through
empirical analysis. The results, expressed in terms of overall F1 score show
that our approach is practically useful to identify intents and entities.
- Abstract(参考訳): インドのような先進国では、データとリソース不足言語の技術的な制限が、医療のための高度なNLUシステムの開発に脅威をもたらしている。
医療における最先端の言語モデルの現況を評価するために,まず2つの異なる医療データセット,すなわちインド医療問合せインテント-webmdと1mg (ihqid-webmdとihqid-1mg) と1つの実世界のインド病院における問合せデータを英語と複数のインド語(hindi, bengali, tamil, telugu, marathi, gujarati)で提示し,問合せインテントにアノテートすることにより,問題を検討した。
私たちの目標は、クエリインテントを検出し、対応するエンティティを抽出することです。
様々な現実的な環境でモデルセットを広範囲に実験し、英語データへのアクセスのみ(コストはかかるが)とターゲット言語データへのアクセス(より高価)に基づいて2つのシナリオを探索する。
経験的分析により文脈特異的な実践的関連性を分析する。
総合f1スコアで表される結果は、我々のアプローチが意図や実体を特定するのに効果的であることを示している。
関連論文リスト
- MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。