論文の概要: Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2505.01096v1
- Date: Fri, 02 May 2025 08:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.962133
- Title: Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages
- Title(参考訳): 低リソース言語における放射線学レポート生成のためのビジョン言語モデル適応の評価
- Authors: Marco Salmè, Rosa Sicilia, Paolo Soda, Valerio Guarrasi,
- Abstract要約: 言語特化モデルは、放射線学レポートの生成において、一般モデルとドメイン特化モデルの両方で大きく上回った。
医学用語で微調整されたモデルでは、すべての言語で性能が向上した。
- 参考スコア(独自算出の注目度): 1.3699492682906507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of artificial intelligence in healthcare has opened new horizons for improving medical diagnostics and patient care. However, challenges persist in developing systems capable of generating accurate and contextually relevant radiology reports, particularly in low-resource languages. In this study, we present a comprehensive benchmark to evaluate the performance of instruction-tuned Vision-Language Models (VLMs) in the specialized task of radiology report generation across three low-resource languages: Italian, German, and Spanish. Employing the LLaVA architectural framework, we conducted a systematic evaluation of pre-trained models utilizing general datasets, domain-specific datasets, and low-resource language-specific datasets. In light of the unavailability of models that possess prior knowledge of both the medical domain and low-resource languages, we analyzed various adaptations to determine the most effective approach for these contexts. The results revealed that language-specific models substantially outperformed both general and domain-specific models in generating radiology reports, emphasizing the critical role of linguistic adaptation. Additionally, models fine-tuned with medical terminology exhibited enhanced performance across all languages compared to models with generic knowledge, highlighting the importance of domain-specific training. We also explored the influence of the temperature parameter on the coherence of report generation, providing insights for optimal model settings. Our findings highlight the importance of tailored language and domain-specific training for improving the quality and accuracy of radiological reports in multilingual settings. This research not only advances our understanding of VLMs adaptability in healthcare but also points to significant avenues for future investigations into model tuning and language-specific adaptations.
- Abstract(参考訳): 医療における人工知能の統合により、医療診断と患者医療を改善するための新たな地平が開かれた。
しかし、特に低リソース言語において、正確で文脈的に関係のある放射線学レポートを作成できるシステムの開発において、課題は続いている。
本研究では,3つの低リソース言語(イタリア語,ドイツ語,スペイン語)にわたる放射線学レポート作成の専門課題において,命令調整型視覚言語モデル(VLM)の性能を評価するための総合的ベンチマークを提案する。
LLaVAアーキテクチャフレームワークを用いて,汎用データセット,ドメイン固有データセット,低リソース言語固有データセットを用いた事前学習モデルの体系的評価を行った。
医療領域と低リソース言語の両方について事前知識を持つモデルが利用できないことを踏まえ、これらの文脈において最も効果的なアプローチを決定するために、様々な適応を分析した。
その結果,言語特化モデルは,放射線学レポート作成において一般モデルとドメイン特化モデルの両方に大きく優れており,言語適応の重要な役割を強調した。
さらに、医学用語で微調整されたモデルでは、汎用知識を持つモデルと比較して、すべての言語でパフォーマンスが向上し、ドメイン固有のトレーニングの重要性が強調された。
また,温度パラメータがレポート生成のコヒーレンスに及ぼす影響についても検討し,最適モデル設定に対する洞察を提供した。
本研究は,多言語環境における放射線学的報告の質と精度向上のための言語・ドメイン特化訓練の重要性を強調した。
この研究は、医療におけるVLMの適応性に関する理解を深めるだけでなく、モデルチューニングと言語固有の適応に関する今後の研究への重要な道のりを指摘する。
関連論文リスト
- Towards Scalable and Cross-Lingual Specialist Language Models for Oncology [4.824906329042275]
汎用大規模モデル(LLM)は、臨床用語、文脈に依存した解釈、マルチモーダルデータ統合といった課題に対処する。
本研究では,教師調律,検索強化生成(RAG),グラフベースの知識統合を組み合わせた,オンコロジー特化,効率的,適応可能なNLPフレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-11T11:34:57Z) - CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Radiology-GPT: A Large Language Model for Radiology [74.07944784968372]
本稿では,ラジオロジーのための大規模言語モデルであるRadiology-GPTを紹介する。
StableLM、Dolly、LLaMAといった一般的な言語モデルと比較して、優れたパフォーマンスを示している。
放射線診断、研究、通信において大きな汎用性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:57:24Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。