論文の概要: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- arxiv url: http://arxiv.org/abs/2310.13132v2
- Date: Mon, 23 Oct 2023 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:24:30.147358
- Title: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- Title(参考訳): 英語で質問する方がよい:医療用大規模言語モデルの言語横断的評価
- Authors: Yiqiao Jin, Mohit Chandra, Gaurav Verma, Yibo Hu, Munmun De Choudhury,
Srijan Kumar
- Abstract要約: 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
- 参考スコア(独自算出の注目度): 31.82249599013959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are transforming the ways the general public
accesses and consumes information. Their influence is particularly pronounced
in pivotal sectors like healthcare, where lay individuals are increasingly
appropriating LLMs as conversational agents for everyday queries. While LLMs
demonstrate impressive language understanding and generation proficiencies,
concerns regarding their safety remain paramount in these high-stake domains.
Moreover, the development of LLMs is disproportionately focused on English. It
remains unclear how these LLMs perform in the context of non-English languages,
a gap that is critical for ensuring equity in the real-world use of these
systems.This paper provides a framework to investigate the effectiveness of
LLMs as multi-lingual dialogue systems for healthcare queries. Our
empirically-derived framework XlingEval focuses on three fundamental criteria
for evaluating LLM responses to naturalistic human-authored health-related
questions: correctness, consistency, and verifiability. Through extensive
experiments on four major global languages, including English, Spanish,
Chinese, and Hindi, spanning three expert-annotated large health Q&A datasets,
and through an amalgamation of algorithmic and human-evaluation strategies, we
found a pronounced disparity in LLM responses across these languages,
indicating a need for enhanced cross-lingual capabilities. We further propose
XlingHealth, a cross-lingual benchmark for examining the multilingual
capabilities of LLMs in the healthcare context. Our findings underscore the
pressing need to bolster the cross-lingual capacities of these models, and to
provide an equitable information ecosystem accessible to all.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
その影響は、医療などの重要な分野において特に顕著であり、在職者が日常的な質問に対する会話エージェントとしてllmを高く評価している。
LLMは印象的な言語理解と生成能力を示す一方で、それらの安全性に関する懸念は、これらの高い領域において最重要である。
さらに、LLMの開発は英語に重点を置いている。
これらのLLMが非英語の文脈でどのように機能するかはいまだ分かっていないが、これらのシステムの現実的な利用における公平性を確保するために重要なギャップである。
我々の経験的起源のフレームワークであるXlingEvalは、自然主義的な人間による健康関連質問に対するLSM応答を評価するための3つの基本的な基準に焦点を当てている。
英語、スペイン語、中国語、ヒンディー語を含む4大グローバル言語に関する広範な実験、専門家が注釈付けした3つの大きな健康Q&Aデータセット、アルゴリズムと人間の評価戦略の融合などを通じて、これらの言語間でのLLM応答の顕著な相違を見出した。
また、医療現場におけるLLMの多言語機能を調べるための言語間ベンチマークであるXlingHealthを提案する。
我々の研究結果は、これらのモデルの言語横断能力を強化し、全ての人がアクセス可能な公平な情報エコシステムを提供することの必要性を強調している。
関連論文リスト
- Do LLMs Provide Consistent Answers to Health-Related Questions across Languages? [14.87110905165928]
英語,ドイツ語,トルコ語,中国語の健康問題に対するLarge Language Models (LLMs) による回答の整合性を検討した。
医療の誤報を広める可能性のある反応の重大な矛盾を明らかにした。
本研究は, 正確で公平な医療情報を確保するために, 言語間アライメントの改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-01-24T18:51:26Z) - Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [3.1894617416005855]
大型言語モデル(LLM)は、様々な眼科手術を自動化するための有望なソリューションを提供する。
LLMは、自然言語の問合せタスクにおいて、様々な言語で顕著に異なる性能を示してきた。
本研究は,複数言語にまたがる質問を手作業でキュレートした,最初の多言語眼科的質問答えベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-18T20:18:03Z) - Unveiling Performance Challenges of Large Language Models in Low-Resource Healthcare: A Demographic Fairness Perspective [7.1047384702030625]
我々は、6つの多様な医療タスクにまたがる3つの一般的な学習フレームワークを用いて、最先端の大規模言語モデル(LLM)を評価した。
LLMを現実の医療タスクに適用する上での重大な課題と、人口統計群全体での永続的公平性の問題を見出した。
論文 参考訳(メタデータ) (2024-11-30T18:52:30Z) - XTRUST: On the Multilingual Trustworthiness of Large Language Models [14.128810448194699]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにまたがる顕著な機能を示している。
現在AIコミュニティが占めている重要な質問は、これらのモデルの能力と制限に関するものだ。
Xは、最初の総合的な多言語信頼性ベンチマークである。
論文 参考訳(メタデータ) (2024-09-24T05:38:33Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Large language models in healthcare and medical domain: A review [4.456243157307507]
大規模言語モデル(LLM)は、自由テキストクエリに対する熟練した応答を提供する。
このレビューでは、多様な医療応用の効率性と効果を増幅するLLMの可能性について考察する。
論文 参考訳(メタデータ) (2023-12-12T20:54:51Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。