論文の概要: Compact Multimodal Language Models as Robust OCR Alternatives for Noisy Textual Clinical Reports
- arxiv url: http://arxiv.org/abs/2511.13523v1
- Date: Mon, 17 Nov 2025 15:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.343791
- Title: Compact Multimodal Language Models as Robust OCR Alternatives for Noisy Textual Clinical Reports
- Title(参考訳): 雑音性テキスト臨床報告におけるロバストOCR代替語としてのコンパクト多モーダル言語モデル
- Authors: Nikita Neveditsin, Pawan Lingras, Salil Patil, Swarup Patil, Vijay Mago,
- Abstract要約: 本研究は,コンパクトなマルチモーダル言語モデルを,ノイズのある臨床文書の書き起こしのためのプライバシ保護代替手段として評価する。
我々は、転写精度、雑音感度、数値精度、計算効率の点で8つのシステムを比較した。
高い計算コストにもかかわらず、その堅牢性と言語適応性は、それらをオンプレミスの医療デジタル化の候補として位置づけている。
- 参考スコア(独自算出の注目度): 3.2187337255863397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digitization of medical records often relies on smartphone photographs of printed reports, producing images degraded by blur, shadows, and other noise. Conventional OCR systems, optimized for clean scans, perform poorly under such real-world conditions. This study evaluates compact multimodal language models as privacy-preserving alternatives for transcribing noisy clinical documents. Using obstetric ultrasound reports written in regionally inflected medical English common to Indian healthcare settings, we compare eight systems in terms of transcription accuracy, noise sensitivity, numeric accuracy, and computational efficiency. Compact multimodal models consistently outperform both classical and neural OCR pipelines. Despite higher computational costs, their robustness and linguistic adaptability position them as viable candidates for on-premises healthcare digitization.
- Abstract(参考訳): 医療記録のデジタル化は、しばしば印刷されたレポートのスマートフォン写真に依存し、ぼやけや影、その他のノイズによって劣化した画像を生成する。
クリーンスキャンに最適化された従来のOCRシステムは、そのような実環境下では性能が良くない。
本研究は,コンパクトなマルチモーダル言語モデルを,ノイズのある臨床文書の書き起こしのためのプライバシ保護代替手段として評価する。
インドにおける医療環境に共通する地域医学英語で書かれた産科的超音波検査を用いて, 転写精度, 雑音感度, 数値精度, 計算効率の8つのシステムを比較した。
コンパクトなマルチモーダルモデルは古典的およびニューラルなOCRパイプラインよりも一貫して優れている。
高い計算コストにもかかわらず、その堅牢性と言語適応性は、それらをオンプレミスの医療デジタル化の候補として位置づけている。
関連論文リスト
- Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts [15.349894506969074]
我々は,多言語および多言語による米国レポート生成のための統一的なフレームワークを提案する。
方法は、臓器部位や言語間で一貫性があり、臨床的に正確なテキスト生成を実現する。
論文 参考訳(メタデータ) (2025-05-13T08:27:01Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Searching for Best Practices in Medical Transcription with Large Language Model [1.0855602842179624]
本稿では,Large Language Model (LLM) を用いて,高精度な医療書面を生成する手法を提案する。
提案手法は,単語誤り率(WER)を低くし,重要な医療用語の正確な認識を確保するために,高度な言語モデリング技術を統合する。
論文 参考訳(メタデータ) (2024-10-04T03:41:16Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Noisy Parallel Data Alignment [36.578851892373365]
既存の単語レベルのアライメントモデルをノイズの多い設定で検討し、ノイズの多いデータに対してより堅牢にすることを目的としている。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により,最先端のニューラルベースアライメントモデルにおけるアライメントエラー率を59.6%に抑えることができた。
論文 参考訳(メタデータ) (2023-01-23T19:26:34Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - FlexR: Few-shot Classification with Language Embeddings for Structured
Reporting of Chest X-rays [37.15474283789249]
構造化された報告テンプレートにおける文によって定義される臨床所見を予測する手法を提案する。
この手法は、胸部X線と関連する自由テキストラジオグラフィーレポートを用いて、対照的な言語画像モデルを訓練することを含む。
その結果, 訓練用画像レベルのアノテーションが限られている場合でも, 胸部X線における重症度評価の構造化された報告タスクを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T16:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。