Fugu-MT 論文翻訳(概要): Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset

論文の概要: Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset

arxiv url: http://arxiv.org/abs/2603.24772v1
Date: Wed, 25 Mar 2026 19:44:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:47.971088
Title: Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset
Title（参考訳）: 小型低リソース言語を用いた医用転写のための微調整LDMモデルの評価
Authors: Mohammed Nowshad Ruhani Chowdhury, Mohammed Nowaz Rabbani Chowdhury, Sakari Lukkarinen,
Abstract要約: 本研究の目的は,LLaMA 3.1-8Bの微調整により,フィンランドにおける医学転写におけるドメイン整合自然言語処理(NLP)と大規模言語モデルの有効性を検討することである。微調整の有効性は7倍のクロスバリデーションにより評価した。その結果,n-gramの重複は低かったが,参照書き起こしと強い意味的類似性を示した。
参考スコア（独自算出の注目度）: 1.2489632787815885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clinical documentation is a critical factor for patient safety, diagnosis, and continuity of care. The administrative burden of EHRs is a significant factor in physician burnout. This is a critical issue for low-resource languages, including Finnish. This study aims to investigate the effectiveness of a domain-aligned natural language processing (NLP); large language model for medical transcription in Finnish by fine-tuning LLaMA 3.1-8B on a small validated corpus of simulated clinical conversations by students at Metropolia University of Applied Sciences. The fine-tuning process for medical transcription used a controlled preprocessing and optimization approach. The fine-tuning effectiveness was evaluated by sevenfold cross-validation. The evaluation metrics for fine-tuned LLaMA 3.1-8B were BLEU = 0.1214, ROUGE-L = 0.4982, and BERTScore F1 = 0.8230. The results showed a low n-gram overlap but a strong semantic similarity with reference transcripts. This study indicate that fine-tuning can be an effective approach for translation of medical discourse in spoken Finnish and support the feasibility of fine-tuning a privacy-oriented domain-specific large language model for clinical documentation in Finnish. Beside that provide directions for future work.
Abstract（参考訳）: 臨床的ドキュメンテーションは患者の安全、診断、ケアの継続にとって重要な要素である。 EHRの管理的負担は、医師のバーンアウトの重要な要因である。これはフィンランド語を含む低リソース言語にとって重要な問題である。本研究では,LLaMA 3.1-8Bの微調整により,フィンランドにおける医学転写のための大規模言語モデルであるNLPの有効性を,メトロポリア大学応用科学科の学生によるシミュレーション的臨床会話のコーパスを用いて検討することを目的とした。医学転写のための微調整プロセスは、制御された前処理と最適化アプローチを使用していた。微調整の有効性は7倍のクロスバリデーションにより評価した。微調整されたLLaMA 3.1-8Bの評価基準はBLEU = 0.1214、ROUGE-L = 0.4982、BERTScore F1 = 0.8230である。その結果,n-gramの重複は低かったが,参照書き起こしと強い意味的類似性を示した。本研究は、フィンランド語における医療談話の翻訳に有効な手法であり、フィンランド語における臨床文書作成のためのプライバシ指向のドメイン特化大言語モデルの実現可能性を支持することを示唆する。そのほか、将来の仕事の道順も提供します。

関連論文リスト

Balancing Natural Language Processing Accuracy and Normalisation in Extracting Medical Insights [2.654416335526196]
本研究は,電子カルテからの情報抽出のためのNLP低スループットルールベース手法とLarge Language Models(LLMs)の比較分析を行った。本研究は, テキスト正規化の欠如と翻訳による情報損失の影響について検討しながら, 患者集団, 臨床所見, 処方薬を抽出し, 双方のアプローチを評価した。その結果、ルールに基づく手法は、特に年齢や性別の抽出において、情報検索タスクにおいて高い精度を提供することが示された。 LLMは、薬名認識に優れた適応性とスケーラビリティを提供する。
論文参考訳（メタデータ） (2025-11-19T18:51:45Z)
SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations [0.4077787659104315]
SwasthLLMは、医用診断のための統一、ゼロショット、クロスランガル、マルチタスク学習フレームワークである。英語、ヒンディー語、ベンガル語で、言語固有の微調整を必要としない。 SwasthLLMは97.22%、F1スコア97.17%という高い診断性能を達成している。
論文参考訳（メタデータ） (2025-09-24T21:20:49Z)
LLM-as-a-Fuzzy-Judge: Fine-Tuning Large Language Models as a Clinical Evaluation Judge with Fuzzy Logic [3.1090878361419416]
本稿では,医学生の臨床スキルと主観的医師の好みを自動評価するLLM-as-a-Fuzzy-Judgeを提案する。この手法は,4つのファジィ集合からの人間のアノテーションに基づいて,学生とAI患者の会話スクリプトにおける医学生の発話を評価するために微調整されている。その結果,LLM-as-a-Fuzzy-Judgeの精度は80%以上であり,主要な基準項目は90%以上であることがわかった。
論文参考訳（メタデータ） (2025-06-12T18:31:49Z)
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文参考訳（メタデータ） (2025-01-16T20:24:56Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
Evaluating Large Language Models for Radiology Natural Language Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2023-07-25T17:57:18Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。