論文の概要: CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare
- arxiv url: http://arxiv.org/abs/2512.11437v1
- Date: Fri, 12 Dec 2025 10:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.728388
- Title: CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare
- Title(参考訳): CLINIC:医療用言語モデルにおける多言語信頼度の評価
- Authors: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal,
- Abstract要約: 医療における言語モデルの信頼性を評価するための総合ベンチマークであるCLINICを提案する。
評価の結果、LMは事実の正しさに苦しむとともに、人口統計学的・言語学的グループに偏りを示し、プライバシー侵害や敵対的攻撃の影響を受けやすいことが明らかとなった。
- 参考スコア(独自算出の注目度): 25.074475493111162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
- Abstract(参考訳): 医療システムに言語モデル(LM)を統合することは、医療ワークフローと意思決定を改善するための大きな約束である。
しかし、現実に採用する上で重要な障壁は、信頼度、特に多言語医療環境での信頼性評価の欠如である。
既存のLMは、主に高レベルの言語でトレーニングされており、中級および低レベルの言語における医療クエリの複雑さと多様性を扱うには不適当であり、言語多様性が鍵となるグローバルな医療状況において、それらをデプロイする上で大きな課題となっている。
本稿では,医療における言語モデルの信頼性を評価するための総合多言語ベンチマークCLINICを提案する。
CLINICは、真実性、公正性、安全性、堅牢性、およびプライバシの5つの重要な側面にわたるLMを体系的にベンチマークし、18の多様なタスクを通じて運用され、15の言語(主要大陸をすべてカバーしている)にまたがり、疾患、予防行動、診断検査、手術、手術、薬品など、幅広い重要な医療トピックを包含している。
我々の広範な評価は、LMが事実の正しさに苦しむこと、人口統計学的および言語学的グループ間の偏見を示し、プライバシー侵害や敵対的攻撃の影響を受けやすいことを明らかにしている。
これらの欠点を強調して、CLINICは、さまざまな言語で医療におけるLMのグローバルリーチと安全性を高める基盤を築いている。
関連論文リスト
- Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。
言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2025-01-16T20:24:56Z) - Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2023-10-19T20:02:40Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。