Fugu-MT 論文翻訳(概要): Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

論文の概要: Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

arxiv url: http://arxiv.org/abs/2602.21374v1
Date: Tue, 24 Feb 2026 21:10:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.610366
Title: Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
Title（参考訳）: 低リソース言語におけるプライバシ保存臨床情報抽出のための小言語モデル
Authors: Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand,
Abstract要約: 本研究では,Aya-expanse-8Bをペルシャ語から英語への翻訳モデルと5つのオープンソース小言語モデル(SLM)を組み合わせた2段階パイプラインの評価を行った。マクロ平均F1スコア, マシューズ相関係数(MCC), 感度, クラス不均衡を考慮した特異性について検討した。 Aya-expanse-8Bのバイリンガル分析により、ペルシア文字を英語に翻訳することで感度が向上し、出力が低下し、クラス不均衡に頑健な指標が増加した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP). This study evaluates a two-step pipeline combining Aya-expanse-8B as a Persian-to-English translation model with five open-source small language models (SLMs) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, and Gemma-3-1B-it -- for binary extraction of 13 clinical features from 1,221 anonymized Persian transcripts collected at a cancer palliative care call center. Using a few-shot prompting strategy without fine-tuning, models were assessed on macro-averaged F1-score, Matthews Correlation Coefficient (MCC), sensitivity, and specificity to account for class imbalance. Qwen2.5-7B-Instruct achieved the highest overall performance (median macro-F1: 0.899; MCC: 0.797), while Gemma-3-1B-it showed the weakest results. Larger models (7B--8B parameters) consistently outperformed smaller counterparts in sensitivity and MCC. A bilingual analysis of Aya-expanse-8B revealed that translating Persian transcripts to English improved sensitivity, reduced missing outputs, and boosted metrics robust to class imbalance, though at the cost of slightly lower specificity and precision. Feature-level results showed reliable extraction of physiological symptoms across most models, whereas psychological complaints, administrative requests, and complex somatic features remained challenging. These findings establish a practical, privacy-preserving blueprint for deploying open-source SLMs in multilingual clinical NLP settings with limited infrastructure and annotation resources, and highlight the importance of jointly optimizing model scale and input language strategy for sensitive healthcare applications.
Abstract（参考訳）: 医療用自然言語処理(NLP)において,低リソース言語における医療用文字から臨床情報を抽出することは重要な課題である。本研究では,Aya-expanse-8Bをペルシャ語から英語への翻訳モデル(SLMs)として組み合わせた2段階パイプラインの評価を行った。このパイプラインは,がん治療コールセンターで収集された1221件の匿名化ペルシャ文字から13の臨床的特徴をバイナリ抽出するために,Qwen2.5-7B-インストラクト,Llama-3.1-8B-インストラクト,Llama-3.2-3B-インストラクト,Qwen2.5-1.5B-インストラクト,Gemma-3-1B-イットの5つのオープンソース小言語モデル(SLMs)である。マクロ平均F1スコア, マシューズ相関係数(MCC), 感度, およびクラス不均衡を考慮した特異性の評価を行った。 Qwen2.5-7B-Instructは最高性能(中型マクロF1:0.899; MCC: 0.797)を達成し、Gemma-3-1B-itは最も弱い結果を示した。より大きなモデル(7B--8Bパラメータ)は、感度とMCCにおいて一貫して小さなモデルよりも優れていた。 Aya-expanse-8Bのバイリンガル分析により、ペルシア文字を英語に翻訳することで感度が向上し、出力が低下し、クラス不均衡に頑健な指標が増加した。機能レベルの結果は,多くのモデルにおいて信頼性の高い生理的症状の抽出が見られたが,心理的な不満,管理的要求,複雑な身体的特徴は依然として困難であった。これらの知見は,多言語臨床NLP設定において,インフラやアノテーションリソースが限定されたオープンソースのSLMをデプロイするための実用的,プライバシ保護の青写真を確立し,より機密性の高い医療アプリケーションのためのモデルスケールと入力言語戦略を共同で最適化することの重要性を強調した。

関連論文リスト

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文参考訳（メタデータ） (2026-03-01T04:37:48Z)
MedPT: A Massive Medical Question Answering Dataset for Brazilian-Portuguese Speakers [35.41469674626373]
ブラジル初の大規模実世界コーパスであるMedPTを紹介した。患者と医師の相互作用から384,095個の質問応答対を合成する。本分析では,患者と医師のコミュニケーションにおける自然な非対称性など,主題の幅(3,200トピックス)と独特の言語特性を明らかにした。
論文参考訳（メタデータ） (2025-11-14T21:13:28Z)
Multilingual Lexical Feature Analysis of Spoken Language for Predicting Major Depression Symptom Severity [5.950020142175479]
英国, オランダ, スペインで586人の参加者の5,836人の音声データとPHQ-8アセスメントの探索分析を行った。線形混合効果モデルを用いてMDD症状の重症度に関連する解釈可能な語彙の特徴を同定することを試みた。英語では,MDD症状の重症度は,語彙的多様性尺度や絶対言語を含む7つの特徴と関連していた。オランダ語では1文あたりの単語と肯定的な単語頻度で関連が観察され、スペインで収集された記録では関連は見られなかった。
論文参考訳（メタデータ） (2025-11-10T12:03:16Z)
Arabic Large Language Models for Medical Text Generation [0.5483130283061118]
本研究では,アラビア語医療用テキスト生成のための大規模言語モデル(LLM)を提案する。このシステムは、正確な医療アドバイス、診断、薬物レコメンデーション、およびユーザ入力に基づく治療計画を提供することによって、患者を支援するように設計されている。
論文参考訳（メタデータ） (2025-09-12T09:37:26Z)
Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文参考訳（メタデータ） (2025-06-19T17:56:16Z)
A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文参考訳（メタデータ） (2025-01-12T16:17:25Z)
SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文参考訳（メタデータ） (2025-01-07T10:29:43Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文参考訳（メタデータ） (2024-09-27T03:31:32Z)
Evaluating Large Language Models for Radiology Natural Language Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2023-07-25T17:57:18Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。