論文の概要: Intent Identification and Entity Extraction for Healthcare Queries in
Indic Languages
- arxiv url: http://arxiv.org/abs/2302.09685v1
- Date: Sun, 19 Feb 2023 22:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:03:35.059581
- Title: Intent Identification and Entity Extraction for Healthcare Queries in
Indic Languages
- Title(参考訳): インダクタンス言語における医療用クエリのインテント識別とエンティティ抽出
- Authors: Ankan Mullick, Ishani Mondal, Sourjyadip Ray, R Raghav, G Sai
Chaitanya, Pawan Goyal
- Abstract要約: インドのような先進国では、データとリソース不足言語の技術的な制限が、医療のための高度なNLUシステムの開発に脅威をもたらしている。
本稿では、2つの異なるヘルスケアデータセットを提案する。
我々の目標は、クエリインテントを検出し、対応するエンティティを抽出することである。
- 参考スコア(独自算出の注目度): 16.39183257795811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scarcity of data and technological limitations for resource-poor languages in
developing countries like India poses a threat to the development of
sophisticated NLU systems for healthcare. To assess the current status of
various state-of-the-art language models in healthcare, this paper studies the
problem by initially proposing two different Healthcare datasets, Indian
Healthcare Query Intent-WebMD and 1mg (IHQID-WebMD and IHQID-1mg) and one real
world Indian hospital query data in English and multiple Indic languages
(Hindi, Bengali, Tamil, Telugu, Marathi and Gujarati) which are annotated with
the query intents as well as entities. Our aim is to detect query intents and
extract corresponding entities. We perform extensive experiments on a set of
models in various realistic settings and explore two scenarios based on the
access to English data only (less costly) and access to target language data
(more expensive). We analyze context specific practical relevancy through
empirical analysis. The results, expressed in terms of overall F1 score show
that our approach is practically useful to identify intents and entities.
- Abstract(参考訳): インドのような先進国では、データとリソース不足言語の技術的な制限が、医療のための高度なNLUシステムの開発に脅威をもたらしている。
医療における最先端の言語モデルの現況を評価するために,まず2つの異なる医療データセット,すなわちインド医療問合せインテント-webmdと1mg (ihqid-webmdとihqid-1mg) と1つの実世界のインド病院における問合せデータを英語と複数のインド語(hindi, bengali, tamil, telugu, marathi, gujarati)で提示し,問合せインテントにアノテートすることにより,問題を検討した。
私たちの目標は、クエリインテントを検出し、対応するエンティティを抽出することです。
様々な現実的な環境でモデルセットを広範囲に実験し、英語データへのアクセスのみ(コストはかかるが)とターゲット言語データへのアクセス(より高価)に基づいて2つのシナリオを探索する。
経験的分析により文脈特異的な実践的関連性を分析する。
総合f1スコアで表される結果は、我々のアプローチが意図や実体を特定するのに効果的であることを示している。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - HEALTH-PARIKSHA: Assessing RAG Models for Health Chatbots in Real-World Multilingual Settings [12.295782362244456]
本研究は、インド人患者から収集した実世界データに基づいて、24大言語モデル(LLM)を広範囲に評価する。
モデルの性能は様々であり,命令調律されたIndicモデルは必ずしもIndic言語クエリでうまく機能しないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T15:29:57Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。