論文の概要: MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2602.22143v1
- Date: Wed, 25 Feb 2026 17:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.934127
- Title: MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining
- Title(参考訳): MedTri: ビジョンランゲージトレーニングを促進するための構造化医療報告正規化プラットフォーム
- Authors: Yuetan Chu, Xinhua Ma, Xinran Jin, Gongning Luo, Xin Gao,
- Abstract要約: MedTriは、医療ビジョン言語事前トレーニングのためのデプロイ可能な正規化フレームワークである。
MedTriは、フリーテキストのレポートを統一された[解剖学的エンティティ: 放射性記述 + 診断カテゴリ]トリプルに変換する。
構造的,解剖学的テキスト正規化は,医用視覚言語事前学習における重要な要素であることを示す。
- 参考スコア(独自算出の注目度): 8.712318878617507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical vision-language pretraining increasingly relies on medical reports as large-scale supervisory signals; however, raw reports often exhibit substantial stylistic heterogeneity, variable length, and a considerable amount of image-irrelevant content. Although text normalization is frequently adopted as a preprocessing step in prior work, its design principles and empirical impact on vision-language pretraining remain insufficiently and systematically examined. In this study, we present MedTri, a deployable normalization framework for medical vision-language pretraining that converts free-text reports into a unified [Anatomical Entity: Radiologic Description + Diagnosis Category] triplet. This structured, anatomy-grounded normalization preserves essential morphological and spatial information while removing stylistic noise and image-irrelevant content, providing consistent and image-grounded textual supervision at scale. Across multiple datasets spanning both X-ray and computed tomography (CT) modalities, we demonstrate that structured, anatomy-grounded text normalization is an important factor in medical vision-language pretraining quality, yielding consistent improvements over raw reports and existing normalization baselines. In addition, we illustrate how this normalization can easily support modular text-level augmentation strategies, including knowledge enrichment and anatomy-grounded counterfactual supervision, which provide complementary gains in robustness and generalization without altering the core normalization process. Together, our results position structured text normalization as a critical and generalizable preprocessing component for medical vision-language learning, while MedTri provides this normalization platform. Code and data will be released at https://github.com/Arturia-Pendragon-Iris/MedTri.
- Abstract(参考訳): 医用視覚言語による事前訓練は、大規模な監視信号として医療報告にますます依存しているが、生のレポートは、相当なスタイリスティックな不均一性、可変長、および相当量の画像関連コンテンツを示すことが多い。
テキストの正規化は前処理のステップとして頻繁に採用されているが、その設計原則と視覚言語事前学習に対する経験的影響は不十分であり、体系的に検討されている。
本研究では,フリーテキストレポートを統一した(解剖学的なエンティティ: 無線記述 + 診断カテゴリー)3重項に変換する,医療ビジョン言語事前訓練のためのデプロイ可能な正規化フレームワークであるMedTriを提案する。
この構造された解剖学的基底正規化は、スタイリスティックノイズや画像非関連コンテンツを取り除きながら、重要な形態的および空間的情報を保存し、一貫した画像的テキスト管理を提供する。
X線およびCTモダリティにまたがる複数のデータセットを用いて、構造化された解剖学的テキスト正規化が、医用視覚言語プレトレーニング品質の重要な要素であり、生のレポートと既存の正規化ベースラインよりも一貫した改善をもたらすことを実証した。
さらに, この正規化は, 基本正規化プロセスを変更することなく, 強靭性や一般化の相補的な向上を図り, 知識の充実や解剖学的根拠による反事実管理など, モジュラーテキストレベルの拡張戦略を容易に支援できることを示す。
MedTriがこの正規化プラットフォームを提供するのに対し、本研究では、構造化テキスト正規化を医用視覚言語学習のためのクリティカルかつ一般化可能な前処理コンポーネントとして位置づけた。
コードとデータはhttps://github.com/Arturia-Pendragon-Iris/MedTri.comで公開される。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Plasticine: A Traceable Diffusion Model for Medical Image Translation [79.39689106440389]
我々は、私たちの知る限り、トレーサビリティを主目的として明示的に設計された最初のエンドツーエンド画像変換フレームワークであるPlasticineを提案する。
本手法は,デノナイジング拡散フレームワーク内での強度変換と空間変換を組み合わせた手法である。
この設計により、解釈可能な強度遷移と空間的コヒーレントな変形を持つ合成画像の生成が可能となり、翻訳プロセス全体を通してピクセルワイドトレーサビリティをサポートする。
論文 参考訳(メタデータ) (2025-12-20T18:01:57Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。
本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:31:24Z) - Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。