論文の概要: Severity-Aware Weighted Loss for Arabic Medical Text Generation
- arxiv url: http://arxiv.org/abs/2604.06346v1
- Date: Tue, 07 Apr 2026 18:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.179079
- Title: Severity-Aware Weighted Loss for Arabic Medical Text Generation
- Title(参考訳): アラビア語医療用テキスト生成における重度重み付き損失
- Authors: Ahmed Alansary, Molham Mohamed, Ali Hamdi,
- Abstract要約: 本稿では,医学的苦情応答データに基づく微調整アラビア語モデルの重み付き損失を提案する。
MAQAデータセットを用いて実験を行い、アラビア人の医療的苦情と信頼できる人間の反応を提供する。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have shown strong potential for Arabic medical text generation; however, traditional fine-tuning objectives treat all medical cases uniformly, ignoring differences in clinical severity. This limitation is particularly critical in healthcare settings, where errors in severe cases contain higher clinical risk. In this work, we propose a severity-aware weighted loss for fine-tuning Arabic language models on medical complaint-response data. The method depends on soft severity probabilities to dynamically scale token-level loss contributions during optimization, thereby prioritizing clinically critical interactions without modifying model architectures. Experiments are conducted using the MAQA dataset, which provides Arabic medical complaints and trusted human responses. Severity labels and probabilistic scores are automatically derived using a fine-tuned AraBERT-based classifier and incorporated exclusively at the loss level. The proposed approach is evaluated across ten Arabic large language models of varying architectures and parameter scales. While standard cross-entropy fine-tuning yields only modest improvements, severity-aware optimization consistently achieves larger gains. Using a balanced weighting configuration, performance improves from 54.04% to 66.14% for AraGPT2-Base, from 59.16% to 67.18% for AraGPT2-Medium, and from 57.83% to 66.86% for Qwen2.5-0.5B, with peak performance reaching 67.18%. Overall, severity-aware fine-tuning delivers improvements of up to 12.10% over non-fine-tuned baselines, demonstrating robust and architecture-consistent gains.
- Abstract(参考訳): 大きな言語モデルは、アラビア語の医療用テキスト生成に強い可能性を示しているが、伝統的な微調整の目的は、臨床の重症度の違いを無視して、すべての医療用ケースを均一に扱う。
この制限は、重篤な症例のエラーに高い臨床リスクが伴う医療環境において特に重要である。
そこで本研究では,医学的苦情応答データに基づく微調整アラビア語モデルに対する重み付き重み付き損失を提案する。
この方法は、最適化中にトークンレベルの損失貢献を動的にスケールするソフトな重大度確率に依存し、モデルアーキテクチャを変更することなく臨床的に重要な相互作用を優先順位付けする。
MAQAデータセットを用いて実験を行い、アラビア人の医療的苦情と信頼できる人間の反応を提供する。
重症度ラベルと確率スコアは、微調整されたAraBERTベースの分類器を用いて自動的に導き出され、損失レベルでのみ組み込まれる。
提案手法は、異なるアーキテクチャとパラメータスケールを持つ10のアラビア大言語モデルに対して評価される。
標準的なクロスエントロピーの微調整はわずかに改善されるが、厳密な最適化は一貫して大きなゲインを達成する。
AraGPT2ベースでは54.04%から66.14%に、AraGPT2-Mediumでは59.16%から67.18%に、Qwen2.5-0.5Bでは57.83%から66.86%に、ピーク性能は67.18%に向上した。
全体として、厳密さを意識した微調整は、非微調整ベースラインよりも最大12.10%改善し、堅牢でアーキテクチャに一貫性のあるゲインを実証する。
関連論文リスト
- Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech [69.86604856129883]
外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T23:00:07Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Orthographic Constraint Satisfaction and Human Difficulty Alignment in Large Language Models [2.3991974633684854]
大規模な言語モデルは、制御されたテキスト生成中に厳密な正書法制約を満たす必要がある。
人格レベルの制約満足度を必要とする58の単語パズルに対して、3つのモデルファミリーにまたがる28の構成を評価した。
論文 参考訳(メタデータ) (2025-11-26T06:12:33Z) - Arabic Large Language Models for Medical Text Generation [0.5483130283061118]
本研究では,アラビア語医療用テキスト生成のための大規模言語モデル(LLM)を提案する。
このシステムは、正確な医療アドバイス、診断、薬物レコメンデーション、およびユーザ入力に基づく治療計画を提供することによって、患者を支援するように設計されている。
論文 参考訳(メタデータ) (2025-09-12T09:37:26Z) - Enhancing Clinical Text Classification via Fine-Tuned DRAGON Longformer Models [7.514574388197471]
本研究は,臨床テキスト分類のためのDRAGON Longformerベースモデルの最適化について検討する。
構造化された医療観察を含む500の臨床症例のデータセットを使用した。
最適化されたモデルは、顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-13T03:10:19Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。