論文の概要: CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare
- arxiv url: http://arxiv.org/abs/2512.11437v1
- Date: Fri, 12 Dec 2025 10:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.728388
- Title: CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare
- Title(参考訳): CLINIC:医療用言語モデルにおける多言語信頼度の評価
- Authors: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal,
- Abstract要約: 医療における言語モデルの信頼性を評価するための総合ベンチマークであるCLINICを提案する。
評価の結果、LMは事実の正しさに苦しむとともに、人口統計学的・言語学的グループに偏りを示し、プライバシー侵害や敵対的攻撃の影響を受けやすいことが明らかとなった。
- 参考スコア(独自算出の注目度): 25.074475493111162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
- Abstract(参考訳): 医療システムに言語モデル(LM)を統合することは、医療ワークフローと意思決定を改善するための大きな約束である。
しかし、現実に採用する上で重要な障壁は、信頼度、特に多言語医療環境での信頼性評価の欠如である。
既存のLMは、主に高レベルの言語でトレーニングされており、中級および低レベルの言語における医療クエリの複雑さと多様性を扱うには不適当であり、言語多様性が鍵となるグローバルな医療状況において、それらをデプロイする上で大きな課題となっている。
本稿では,医療における言語モデルの信頼性を評価するための総合多言語ベンチマークCLINICを提案する。
CLINICは、真実性、公正性、安全性、堅牢性、およびプライバシの5つの重要な側面にわたるLMを体系的にベンチマークし、18の多様なタスクを通じて運用され、15の言語(主要大陸をすべてカバーしている)にまたがり、疾患、予防行動、診断検査、手術、手術、薬品など、幅広い重要な医療トピックを包含している。
我々の広範な評価は、LMが事実の正しさに苦しむこと、人口統計学的および言語学的グループ間の偏見を示し、プライバシー侵害や敵対的攻撃の影響を受けやすいことを明らかにしている。
これらの欠点を強調して、CLINICは、さまざまな言語で医療におけるLMのグローバルリーチと安全性を高める基盤を築いている。
関連論文リスト
- Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks [12.886024273517556]
大規模言語モデル(LLM)は、臨床診断支援、医学教育、医療質問応答などの医療応用で広く使われている。
しかし、これらのモデルはしばしば英語中心であり、言語的に多様なコミュニティに対する頑丈さと信頼性を制限している。
最近の研究は、様々な医療タスクのための低リソース言語のパフォーマンスの相違を強調しているが、その根本原因はよく分かっていない。
論文 参考訳(メタデータ) (2026-02-05T06:52:46Z) - Toward Global Large Language Models in Medicine [67.38063166560406]
GlobMedは、12言語にまたがる50,000以上のエントリを含む、大規模な多言語医療データセットである。
GlobMed-Benchは、複数の多言語医療タスクにわたる56の最先端のプロプライエタリでオープンなLLMを評価し、言語間での大幅なパフォーマンス格差を明らかにしている。
GlobMed-LLMはベースラインモデルと比較して平均40%以上のパフォーマンス向上を実現し、低リソース言語では3倍以上のパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2026-01-05T15:05:49Z) - JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models [47.20100799532625]
JMedEthicBenchは,大規模言語モデルの医療安全性を評価するための,最初のマルチターン対話型ベンチマークである。
デュアルLLMスコアリングプロトコルを用いて27のモデルを評価し,医療特化モデルでは脆弱性が増大するのに対して,商業モデルは堅牢な安全性を維持していることを確認した。
論文 参考訳(メタデータ) (2026-01-04T18:18:18Z) - Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。
言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2025-01-16T20:24:56Z) - Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [3.1894617416005855]
大型言語モデル(LLM)は、様々な眼科手術を自動化するための有望なソリューションを提供する。
LLMは、自然言語の問合せタスクにおいて、様々な言語で顕著に異なる性能を示してきた。
本研究は,複数言語にまたがる質問を手作業でキュレートした,最初の多言語眼科的質問答えベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-18T20:18:03Z) - Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2023-10-19T20:02:40Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。