論文の概要: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- arxiv url: http://arxiv.org/abs/2310.13132v2
- Date: Mon, 23 Oct 2023 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:24:30.147358
- Title: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- Title(参考訳): 英語で質問する方がよい:医療用大規模言語モデルの言語横断的評価
- Authors: Yiqiao Jin, Mohit Chandra, Gaurav Verma, Yibo Hu, Munmun De Choudhury,
Srijan Kumar
- Abstract要約: 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
- 参考スコア(独自算出の注目度): 31.82249599013959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are transforming the ways the general public
accesses and consumes information. Their influence is particularly pronounced
in pivotal sectors like healthcare, where lay individuals are increasingly
appropriating LLMs as conversational agents for everyday queries. While LLMs
demonstrate impressive language understanding and generation proficiencies,
concerns regarding their safety remain paramount in these high-stake domains.
Moreover, the development of LLMs is disproportionately focused on English. It
remains unclear how these LLMs perform in the context of non-English languages,
a gap that is critical for ensuring equity in the real-world use of these
systems.This paper provides a framework to investigate the effectiveness of
LLMs as multi-lingual dialogue systems for healthcare queries. Our
empirically-derived framework XlingEval focuses on three fundamental criteria
for evaluating LLM responses to naturalistic human-authored health-related
questions: correctness, consistency, and verifiability. Through extensive
experiments on four major global languages, including English, Spanish,
Chinese, and Hindi, spanning three expert-annotated large health Q&A datasets,
and through an amalgamation of algorithmic and human-evaluation strategies, we
found a pronounced disparity in LLM responses across these languages,
indicating a need for enhanced cross-lingual capabilities. We further propose
XlingHealth, a cross-lingual benchmark for examining the multilingual
capabilities of LLMs in the healthcare context. Our findings underscore the
pressing need to bolster the cross-lingual capacities of these models, and to
provide an equitable information ecosystem accessible to all.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
その影響は、医療などの重要な分野において特に顕著であり、在職者が日常的な質問に対する会話エージェントとしてllmを高く評価している。
LLMは印象的な言語理解と生成能力を示す一方で、それらの安全性に関する懸念は、これらの高い領域において最重要である。
さらに、LLMの開発は英語に重点を置いている。
これらのLLMが非英語の文脈でどのように機能するかはいまだ分かっていないが、これらのシステムの現実的な利用における公平性を確保するために重要なギャップである。
我々の経験的起源のフレームワークであるXlingEvalは、自然主義的な人間による健康関連質問に対するLSM応答を評価するための3つの基本的な基準に焦点を当てている。
英語、スペイン語、中国語、ヒンディー語を含む4大グローバル言語に関する広範な実験、専門家が注釈付けした3つの大きな健康Q&Aデータセット、アルゴリズムと人間の評価戦略の融合などを通じて、これらの言語間でのLLM応答の顕著な相違を見出した。
また、医療現場におけるLLMの多言語機能を調べるための言語間ベンチマークであるXlingHealthを提案する。
我々の研究結果は、これらのモデルの言語横断能力を強化し、全ての人がアクセス可能な公平な情報エコシステムを提供することの必要性を強調している。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - History, Development, and Principles of Large Language Models-An
Introductory Survey [48.27738446932852]
自然言語処理(NLP)の基盤となる言語モデル
数十年にわたる広範な研究を経て、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
論文 参考訳(メタデータ) (2024-02-10T01:18:15Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Large language models in healthcare and medical domain: A review [5.264460964718939]
大規模言語モデル(LLM)は、自由テキストクエリに対する熟練した応答を提供する。
このレビューでは、多様な医療応用の効率性と効果を増幅するLLMの可能性について考察する。
論文 参考訳(メタデータ) (2023-12-12T20:54:51Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - A Survey of Large Language Models for Healthcare: from Data, Technology,
and Applications to Accountability and Ethics [33.71952776775613]
Healthcareドメインの大規模言語モデル(LLM)は、フリーテキストクエリに効果的に応答できるため、興奮と懸念の両方を引き起こしている。
本調査では、現在開発中のLLMs for Healthcareの能力について概説し、開発プロセスについて解説する。
論文 参考訳(メタデータ) (2023-10-09T13:15:23Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。