論文の概要: Reliability-Oriented Multilingual Orthopedic Diagnosis: A Domain-Adaptive Modeling and a Conceptual Validation Framework
- arxiv url: http://arxiv.org/abs/2605.02266v1
- Date: Mon, 04 May 2026 06:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.161334
- Title: Reliability-Oriented Multilingual Orthopedic Diagnosis: A Domain-Adaptive Modeling and a Conceptual Validation Framework
- Title(参考訳): 信頼性を指向した多言語矯正診断:ドメイン適応モデリングと概念検証フレームワーク
- Authors: Danish Ali, Li Xiaojian, Sundas Iqbal, Farrukh Zaidi,
- Abstract要約: 英語,ヒンディー語,パンジャービ語におけるフリーテキストによる多言語整形外科診断のシステムレベルでの分析を行った。
i)タスク整列型多言語トランスフォーマーエンコーダ,(ii)タスク細調整ベースライン(DistilBERT),(iii)整形テキストに適したドメイン適応型アーキテクチャの3つのモデリング方式を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly proposed for clinical decision support including multilingual diagnosis in low-resource settings. However, their reliability, calibration and safety characteristics remain insufficiently understood for structured, high-risk tasks. We present a system-level analysis of multilingual orthopedic diagnosis from free-text clinical notes in English, Hindi and Punjabi. We evaluate three modeling regimes: (i) task-aligned multilingual transformer encoders, (ii) a task-fine-tuned baseline (DistilBERT), and (iii) a domain-adaptive architecture tailored to orthopedic text (IndicBERT-HPA). These models are compared with zero-shot, instruction-tuned LLMs to assess suitability for structured diagnostic classification. Results indicate that while LLMs exhibit strong linguistic fluency, they show unstable calibration and reduced reliability under structured multilingual conditions, particularly in low-resource languages. These findings are specific to zero-shot evaluation and do not imply limitations of fine-tuned models. Domain-adaptive specialization substantially improves cross-lingual discrimination and confidence behavior. IndicBERT-HPA, with language-specific orthopedic adapter heads achieves consistently strong performance across six diagnostic categories and more predictable deployment characteristics than task-only adaptation. Building on these observations, we outline a conceptual deterministic agent-based validation framework for future implementation, formalizing evidence checks, language-sensitive validation and conservative human-in-the-loop gating. Reliable multilingual clinical decision support requires specialized architecture, explicit reliability analysis, and structured validation for safety-critical systems.
- Abstract(参考訳): 低リソース環境における多言語診断を含む臨床診断支援のために,大規模言語モデル (LLMs) がますます提案されている。
しかし、その信頼性、キャリブレーション、安全性は、構造化された高リスクタスクでは十分に理解されていない。
英語,ヒンディー語,パンジャービ語におけるフリーテキストによる多言語整形外科診断のシステムレベルでの分析を行った。
我々は3つのモデリング体制を評価する。
(i)タスク整合多言語変換器エンコーダ
(ii)タスクファインチューニングベースライン(DistilBERT)及び
(iii)整形文字(IndicBERT-HPA)に適合したドメイン適応型アーキテクチャ。
これらのモデルは、構造化診断分類の適合性を評価するため、ゼロショットの命令調整LDMと比較される。
その結果,LLMは言語流速が強いが,低リソース言語では不安定な校正と,構造化多言語条件下での信頼性の低下が示唆された。
これらの結果はゼロショット評価に特有であり、微調整モデルの制限を含まない。
ドメイン適応型特殊化は言語間差別と信頼行動を大幅に改善する。
IndicBERT-HPAは、言語固有の整形アダプターヘッドを持ち、6つの診断カテゴリで一貫して強力な性能を達成し、タスクのみの適応よりも予測可能なデプロイメント特性を実現している。
これらの観測結果に基づいて,概念的決定論的エージェントベース検証フレームワークの概要,エビデンスチェックの形式化,言語に敏感な検証,保守的な人間-イン-ザ-ループゲーティングについて述べる。
信頼性の高い多言語臨床決定支援には、特別なアーキテクチャ、明示的な信頼性分析、安全クリティカルシステムのための構造化された検証が必要である。
関連論文リスト
- Domain-Adapted Small Language Models for Reliable Clinical Triage [4.836986736624673]
本研究では、オープンソースの小言語モデル(SLM)が、臨床トリアージのための信頼性とプライバシー保護のための意思決定支援ツールとして機能するかどうかを評価する。
論文 参考訳(メタデータ) (2026-04-29T15:00:09Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - ClinStructor: AI-Powered Structuring of Unstructured Clinical Texts [3.073796943975155]
我々は,ClinStructorについて述べる。ClinStructorは大規模言語モデル(LLM)を利用して,臨床自由テキストを予測モデルに先立って構造化されたタスク固有の質問応答ペアに変換するパイプラインである。
本手法は透明性と制御性を大幅に向上させ,予測性能の低下を招く。
論文 参考訳(メタデータ) (2025-11-14T21:21:16Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages [1.3699492682906507]
言語特化モデルは、放射線学レポートの生成において、一般モデルとドメイン特化モデルの両方で大きく上回った。
医学用語で微調整されたモデルでは、すべての言語で性能が向上した。
論文 参考訳(メタデータ) (2025-05-02T08:14:03Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。