論文の概要: Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation
- arxiv url: http://arxiv.org/abs/2510.12953v1
- Date: Tue, 14 Oct 2025 19:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.40225
- Title: Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation
- Title(参考訳): 胎児超音波解釈のためのてんかん認識型視覚言語基礎モデル
- Authors: Xiao He, Huangxuan Zhao, Guojia Wan, Wei Zhou, Yanxing Liu, Juhua Liu, Yongchao Xu, Yong Luo, Dacheng Tao, Bo Du,
- Abstract要約: 医療用AIシステムFetalMindについて報告する。
本稿では、専門家による2部グラフをモデルに注入し、ビュー・ディスリーズ関連を分離するSED(Salient Epistemic Disentanglement)を提案する。
FetalMindはすべての妊娠期のオープンソースおよびクローズドソースベースラインを上回り、平均利得は+14%、臨界条件では+61.2%高い。
- 参考スコア(独自算出の注目度): 83.02147613524032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent medical vision-language models have shown promise on tasks such as VQA, report generation, and anomaly detection. However, most are adapted to structured adult imaging and underperform in fetal ultrasound, which poses challenges of multi-view image reasoning, numerous diseases, and image diversity. To bridge this gap, we introduce FetalMind, a medical AI system tailored to fetal ultrasound for both report generation and diagnosis. Guided by clinical workflow, we propose Salient Epistemic Disentanglement (SED), which injects an expert-curated bipartite graph into the model to decouple view-disease associations and to steer preference selection along clinically faithful steps via reinforcement learning. This design mitigates variability across diseases and heterogeneity across views, reducing learning bottlenecks while aligning the model's inference with obstetric practice. To train FetalMind at scale, we curate FetalSigma-1M dataset, the first large-scale fetal ultrasound report corpus, comprising 20K reports from twelve medical centers, addressing the scarcity of domain data. Extensive experiments show that FetalMind outperforms open- and closed-source baselines across all gestational stages, achieving +14% average gains and +61.2% higher accuracy on critical conditions while remaining efficient, stable, and scalable. Project Page: https://hexiao0275.github.io/FetalMind.
- Abstract(参考訳): 最近の医療ビジョン言語モデルでは、VQA、レポート生成、異常検出といったタスクが約束されている。
しかし、その多くは、多視点画像推論、多数の疾患、および画像多様性の課題を引き起こす胎児超音波において、構造化された成人画像に適応し、過度に機能する。
このギャップを埋めるために、我々は、胎児超音波と診断のための医療用AIシステムFetalMindを紹介した。
臨床ワークフローでガイドされたSalient Epistemic Disentanglement (SED) は、専門家が作成した2部グラフをモデルに注入し、ビュー・ディスリーズ・アソシエーションを分離し、強化学習を通じて臨床に忠実なステップに沿って選好選択を行う。
この設計は、疾患間のばらつきとビュー間の不均一性を軽減し、学習ボトルネックを低減し、モデルの推論と産婦人科の実践を整合させる。
FetalMindを大規模にトレーニングするために、12の医療センターから20Kのレポートを収集し、ドメインデータの不足に対処する最初の大規模胎児超音波レポートコーパスであるFetalSigma-1Mデータセットをキュレートする。
大規模な実験により、FetalMindはすべての妊娠段階においてオープンソースとクローズドソースのベースラインを上回り、平均利得が+14%、臨界条件が+61.2%高く、かつ効率的で安定的でスケーラブルであることが示されている。
Project Page: https://hexiao0275.github.io/FetalMind.com
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Advancing Fetal Ultrasound Image Quality Assessment in Low-Resource Settings [3.982826074217475]
FetalCLIPは、210,000以上の胎児超音波画像言語対のキュレートデータセットに事前訓練されたビジョンキャプションモデルである。
本稿では、LoRA(Lo-Rank Adaptation)を用いてFetalCLIPから適応したIQAモデルを導入し、ACOUS-AIデータセット上で評価する。
適応セグメンテーションモデルでは,分類に再利用することで,F1スコアの0.771を達成し,さらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2025-07-30T16:09:29Z) - FetalFlex: Anatomy-Guided Diffusion Model for Flexible Control on Fetal Ultrasound Image Synthesis [16.640351512021017]
これらの課題に対処するために、Flexible Fetal USイメージ生成フレームワーク(FetalFlex)を紹介します。
FetalFlexには、制御性を高めるための事前調整モジュールが組み込まれており、一貫したテクスチャと外観を保証するための再塗装戦略が導入されている。
マルチセンターデータセットの実験では、FetalFlexが複数の画像品質メトリクスで最先端のパフォーマンスを達成したことが示されている。
論文 参考訳(メタデータ) (2025-03-19T05:16:19Z) - FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis [0.676810348604193]
FetalCLIPは胎児超音波画像の普遍的な表現を生成できる視覚言語基盤モデルである。
テキストと組み合わせた210,035個の胎児超音波画像から,マルチモーダル・ラーニング・アプローチを用いて事前訓練を行った。
論文 参考訳(メタデータ) (2025-02-20T18:30:34Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - FetReg: Placental Vessel Segmentation and Registration in Fetoscopy
Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法である
これにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。
コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。
本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:14:27Z) - Hybrid Attention for Automatic Segmentation of Whole Fetal Head in
Prenatal Ultrasound Volumes [52.53375964591765]
胎児の頭部全体を米国全巻に分割する,最初の完全自動化ソリューションを提案する。
セグメント化タスクは、まずエンコーダ-デコーダディープアーキテクチャの下で、エンドツーエンドのボリュームマッピングとして定式化される。
次に,セグメンタとハイブリットアテンションスキーム(HAS)を組み合わせることで,識別的特徴を選択し,非情報量的特徴を抑える。
論文 参考訳(メタデータ) (2020-04-28T14:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。