論文の概要: Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real World Setting
- arxiv url: http://arxiv.org/abs/2512.10780v1
- Date: Thu, 11 Dec 2025 16:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.46014
- Title: Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real World Setting
- Title(参考訳): Script Gap: 実世界におけるネイティブとローマのスクリプトにおけるLLMトリアージの評価
- Authors: Manurag Khullar, Utkarsh Desai, Poorva Malviya, Aman Dalmia, Zheyuan Ryan Shi,
- Abstract要約: 本研究は,母性・新生児の医療トリアージにおける言語モデル(LLM)の信頼性にローマン化が及ぼす影響について考察する。
我々は,5つのインド語とネパール語にまたがるユーザ生成クエリの現実的なデータセット上で,LLMを先導するベンチマークを行った。
F1スコアはネイティブスクリプトを5~12ポイント追従する。
- 参考スコア(独自算出の注目度): 6.9152194057223655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes clinical applications in India. In many such settings, speakers of Indian languages frequently communicate using romanized text rather than native scripts, yet existing research rarely evaluates this orthographic variation using real-world data. We investigate how romanization impacts the reliability of LLMs in a critical domain: maternal and newborn healthcare triage. We benchmark leading LLMs on a real-world dataset of user-generated queries spanning five Indian languages and Nepali. Our results reveal consistent degradation in performance for romanized messages, with F1 scores trailing those of native scripts by 5-12 points. At our partner maternal health organization in India, this gap could cause nearly 2 million excess errors in triage. Crucially, this performance gap by scripts is not due to a failure in clinical reasoning. We demonstrate that LLMs often correctly infer the semantic intent of romanized queries. Nevertheless, their final classification outputs remain brittle in the presence of orthographic noise in romanized inputs. Our findings highlight a critical safety blind spot in LLM-based health systems: models that appear to understand romanized input may still fail to act on it reliably.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、インドのハイテイクな臨床応用にますます導入されている。
このような設定の多くでは、インド語の話者は、ネイティブスクリプトではなく、ローマ字でコミュニケーションすることが多いが、既存の研究では、実際のデータを用いてこの正書法の変化を評価することはめったにない。
本研究は,母体と新生児の医療トリアージにおけるLLMの信頼性に及ぼすロマナイゼーションの影響について考察する。
我々は,5つのインド語とネパール語にまたがるユーザ生成クエリの現実的なデータセット上で,LLMを先導するベンチマークを行った。
F1スコアはネイティブスクリプトを5~12ポイント追従する。
インドにおける我々のパートナーの母体保健機関では、このギャップはトリアージで200万近い過度なエラーを引き起こす可能性がある。
重要なことに、スクリプトによるこのパフォーマンスギャップは、臨床推論の失敗によるものではない。
LLMは、しばしばロマネズドクエリのセマンティックな意図を正しく推測する。
それでも、最終的な分類出力は、ローマ字入力における正書法ノイズの存在下では不安定なままである。
我々の研究は、LSMベースの健康システムにおいて重要な安全盲点を浮き彫りにしている。
関連論文リスト
- Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results [16.391752298134474]
言語間で異なる大規模言語モデル(LLM)の性能について検討する。
言語間でのモデルの性能には、非無視的で一貫したギャップがあることが分かりました。
本稿では,第1の課題を大規模に解決するための自動品質保証手法を提案し,第2の課題に対処するためのレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T11:30:10Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - Do LLMs exhibit the same commonsense capabilities across languages? [4.177608674029413]
我々はCOCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張する新しいベンチマークであるMultiCOMを紹介した。
このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。
その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
論文 参考訳(メタデータ) (2025-09-08T07:47:00Z) - Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。
10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。
次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-17T03:53:24Z) - Robustness of Large Language Models to Perturbations in Text [2.2734015467359217]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。