論文の概要: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- arxiv url: http://arxiv.org/abs/2310.13132v2
- Date: Mon, 23 Oct 2023 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:24:30.147358
- Title: Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries
- Title(参考訳): 英語で質問する方がよい:医療用大規模言語モデルの言語横断的評価
- Authors: Yiqiao Jin, Mohit Chandra, Gaurav Verma, Yibo Hu, Munmun De Choudhury,
Srijan Kumar
- Abstract要約: 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
- 参考スコア(独自算出の注目度): 31.82249599013959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are transforming the ways the general public
accesses and consumes information. Their influence is particularly pronounced
in pivotal sectors like healthcare, where lay individuals are increasingly
appropriating LLMs as conversational agents for everyday queries. While LLMs
demonstrate impressive language understanding and generation proficiencies,
concerns regarding their safety remain paramount in these high-stake domains.
Moreover, the development of LLMs is disproportionately focused on English. It
remains unclear how these LLMs perform in the context of non-English languages,
a gap that is critical for ensuring equity in the real-world use of these
systems.This paper provides a framework to investigate the effectiveness of
LLMs as multi-lingual dialogue systems for healthcare queries. Our
empirically-derived framework XlingEval focuses on three fundamental criteria
for evaluating LLM responses to naturalistic human-authored health-related
questions: correctness, consistency, and verifiability. Through extensive
experiments on four major global languages, including English, Spanish,
Chinese, and Hindi, spanning three expert-annotated large health Q&A datasets,
and through an amalgamation of algorithmic and human-evaluation strategies, we
found a pronounced disparity in LLM responses across these languages,
indicating a need for enhanced cross-lingual capabilities. We further propose
XlingHealth, a cross-lingual benchmark for examining the multilingual
capabilities of LLMs in the healthcare context. Our findings underscore the
pressing need to bolster the cross-lingual capacities of these models, and to
provide an equitable information ecosystem accessible to all.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
その影響は、医療などの重要な分野において特に顕著であり、在職者が日常的な質問に対する会話エージェントとしてllmを高く評価している。
LLMは印象的な言語理解と生成能力を示す一方で、それらの安全性に関する懸念は、これらの高い領域において最重要である。
さらに、LLMの開発は英語に重点を置いている。
これらのLLMが非英語の文脈でどのように機能するかはいまだ分かっていないが、これらのシステムの現実的な利用における公平性を確保するために重要なギャップである。
我々の経験的起源のフレームワークであるXlingEvalは、自然主義的な人間による健康関連質問に対するLSM応答を評価するための3つの基本的な基準に焦点を当てている。
英語、スペイン語、中国語、ヒンディー語を含む4大グローバル言語に関する広範な実験、専門家が注釈付けした3つの大きな健康Q&Aデータセット、アルゴリズムと人間の評価戦略の融合などを通じて、これらの言語間でのLLM応答の顕著な相違を見出した。
また、医療現場におけるLLMの多言語機能を調べるための言語間ベンチマークであるXlingHealthを提案する。
我々の研究結果は、これらのモデルの言語横断能力を強化し、全ての人がアクセス可能な公平な情報エコシステムを提供することの必要性を強調している。
関連論文リスト
- Multilingual Large Language Models: A Systematic Survey [38.972546467173565]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。
まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。
本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文 参考訳(メタデータ) (2024-11-17T13:21:26Z) - Severity Prediction in Mental Health: LLM-based Creation, Analysis,
Evaluation of a Novel Multilingual Dataset [3.4146360486107987]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - XTRUST: On the Multilingual Trustworthiness of Large Language Models [14.128810448194699]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにまたがる顕著な機能を示している。
現在AIコミュニティが占めている重要な質問は、これらのモデルの能力と制限に関するものだ。
Xは、最初の総合的な多言語信頼性ベンチマークである。
論文 参考訳(メタデータ) (2024-09-24T05:38:33Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Large language models in healthcare and medical domain: A review [4.456243157307507]
大規模言語モデル(LLM)は、自由テキストクエリに対する熟練した応答を提供する。
このレビューでは、多様な医療応用の効率性と効果を増幅するLLMの可能性について考察する。
論文 参考訳(メタデータ) (2023-12-12T20:54:51Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。