Fugu-MT 論文翻訳(概要): Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations

論文の概要: Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations

arxiv url: http://arxiv.org/abs/2606.01204v1
Date: Sun, 31 May 2026 12:39:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.378696
Title: Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations
Title（参考訳）: LLM医療トリアージにおける不必要地理的推論:緊急勧告における言語による差異
Authors: Qi Han Wong,
Abstract要約: 本研究は,大言語モデルが患者プロンプトの言語のみに基づいて,同一の症状に対して異なる医用トリアージレコメンデーションを作成できるかどうかを検討する。 Gemini 3.5 Flashを用いて、6言語にわたる神経症状プロファイル(持続性頭痛、視力のぼやけ、吐き気)を評価した。本モデルでは,0%(日本人,ヒンディー人)から30%(英語,アラビア語)の緊急訪問を推奨している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate whether large language models produce different medical triage recommendations for identical symptoms based solely on the language of the patient prompt. Using Gemini 3.5 Flash, we evaluate a neurological symptom profile (persistent headache, blurred vision, nausea) across six languages (English, Spanish, Chinese, Hindi, Japanese, Arabic) with 30 runs per condition (n=450 total API calls). We find that the model recommends emergency room visits at rates ranging from 0% (Japanese, Hindi) to 30% (English, Arabic), despite assigning nearly identical severity scores (7.7-8.0/10) across all languages. Adding a single sentence specifying the patient's US location increases ER recommendations by up to 76.7 percentage points for non-English prompts, while the reverse anchor (English prompt with a Tokyo location) reduces the ER rate from 30% to 6.7%. A back-translation control (Japanese to English) produces ER rates comparable to the English baseline, confirming that the disparity is not caused by translation quality but by implicit geographic inference from the input language. We release the complete dataset, experiment code, and results.
Abstract（参考訳）: 本研究は,大言語モデルが患者プロンプトの言語のみに基づいて,同一の症状に対して異なる医用トリアージレコメンデーションを作成できるかどうかを検討する。 Gemini 3.5 Flash を用いて6言語 (英語, スペイン語, 中国語, ヒンディー語, 日本語, アラビア語) で1条件あたり30ラン (n=450トータルAPIコール) の神経症状プロファイル (持続頭痛, 視力, 吐き気) を評価した。本モデルでは,全言語でほぼ同一の重度スコア (7.7-8.0/10) を割り当てているにもかかわらず,0%(日本語,ヒンディー語)から30%(英語,アラビア語)までの緊急室訪問を推奨している。患者の米国位置情報を指定した1文を追加すると、ノンイングリッシュプロンプトに対して最大76.7%のERレコメンデーションが増加し、リバースアンカー(東京ロケーションの英語プロンプト)はERレートを30%から6.7%に下げる。逆翻訳制御(日本語から英語)は、英語のベースラインに匹敵するERレートを生成し、この差は翻訳品質ではなく、入力言語からの暗黙の地理的推論によって生じるものであることを確認した。完全なデータセット、実験コード、結果をリリースします。

関連論文リスト

Importance of Prompt Optimisation for Error Detection in Medical Notes Using Language Models [0.0]
誤り検出のタスクに適用する場合,小・大言語モデルに対する迅速な最適化の重要性を示す。本稿では,GEPAによる自動プロンプト最適化により,ベースライン精度よりも誤差検出が向上することを示す。
論文参考訳（メタデータ） (2026-02-25T23:46:49Z)
MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations [4.451052650309736]
我々はMedErrBenchを紹介した。MedErrBenchは、エラー検出、ローカライゼーション、修正のための最初の多言語ベンチマークである。 MedErrBenchは10種類の一般的な誤りの分類に基づいて、英語、アラビア語、中国語をカバーしている。その結果、特に英語以外の設定では、顕著なパフォーマンスのギャップが明らかとなった。
論文参考訳（メタデータ） (2026-02-05T14:18:20Z)
Multilingual Lexical Feature Analysis of Spoken Language for Predicting Major Depression Symptom Severity [5.950020142175479]
英国, オランダ, スペインで586人の参加者の5,836人の音声データとPHQ-8アセスメントの探索分析を行った。線形混合効果モデルを用いてMDD症状の重症度に関連する解釈可能な語彙の特徴を同定することを試みた。英語では,MDD症状の重症度は,語彙的多様性尺度や絶対言語を含む7つの特徴と関連していた。オランダ語では1文あたりの単語と肯定的な単語頻度で関連が観察され、スペインで収集された記録では関連は見られなかった。
論文参考訳（メタデータ） (2025-11-10T12:03:16Z)
MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts [0.0]
大規模言語モデル (LLM) は医療応用における将来性を示すが, 臨床用テキストにおける誤りの検出と訂正能力は, 未評価のままである。我々は,医療ミス処理を3つのサブタスクとして定式化する言語間ベンチマーク(日本語/英語)であるMedRECTを紹介する。プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
論文参考訳（メタデータ） (2025-11-01T06:19:34Z)
PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark [3.2640411992544345]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)ベンチマークにおいて、顕著なパフォーマンスを実現している。イランの14年間の医学試験から得られた,20,785名の専門資格を持つペルシア人医療質問の大規模データセットであるペルシャMedQAを紹介した。我々は、ゼロショットとチェーンオブ思考の設定で、汎用、ペルシャ細調整、医療用LLMを含む40の最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2025-05-30T21:34:30Z)
BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-20T18:59:26Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-05-18T12:43:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。