論文の概要: TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy
- arxiv url: http://arxiv.org/abs/2603.09217v1
- Date: Tue, 10 Mar 2026 05:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.06141
- Title: TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy
- Title(参考訳): TubeMLLM: 容器型解剖学におけるトポロジー知識探索の基礎モデル
- Authors: Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu,
- Abstract要約: TubeMLLMは、医療血管のような解剖学のための制御可能な生成と構造的理解を結合した統合基盤モデルである。
トポロジ的先行を明示的な自然言語によって統合し、それらを共有アテンションアーキテクチャの視覚的表現と整合させることで、チューブMLLMはトポロジ的認識を著しく強化する。
- 参考スコア(独自算出の注目度): 16.269041470108938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling medical vessel-like anatomy is challenging due to its intricate topology and sensitivity to dataset shifts. Consequently, task-specific models often suffer from topological inconsistencies, including artificial disconnections and spurious merges. Motivated by the promise of multimodal large language models (MLLMs) for zero-shot generalization, we propose TubeMLLM, a unified foundation model that couples structured understanding with controllable generation for medical vessel-like anatomy. By integrating topological priors through explicit natural language prompting and aligning them with visual representations in a shared-attention architecture, TubeMLLM significantly enhances topology-aware perception. Furthermore, we construct TubeMData, a pionner multimodal benchmark comprising comprehensive topology-centric tasks, and introduce an adaptive loss weighting strategy to emphasize topology-critical regions during training. Extensive experiments on fifteen diverse datasets demonstrate our superiority. Quantitatively, TubeMLLM achieves state-of-the-art out-of-distribution performance, substantially reducing global topological discrepancies on color fundus photography (decreasing the $β_{0}$ number error from 37.42 to 8.58 compared to baselines). Notably, TubeMLLM exhibits exceptional zero-shot cross-modality transferring ability on unseen X-ray angiography, achieving a Dice score of 67.50% while significantly reducing the $β_{0}$ error to 1.21. TubeMLLM also maintains robustness against degradations such as blur, noise, and low resolution. Furthermore, in topology-aware understanding tasks, the model achieves 97.38% accuracy in evaluating mask topological quality, significantly outperforming standard vision-language baselines.
- Abstract(参考訳): 医療容器のような解剖学のモデル化は、複雑なトポロジとデータセットシフトに対する感受性のために難しい。
その結果、タスク固有のモデルは、しばしば、人工的な切断や急激なマージなど、トポロジ上の不整合に悩まされる。
ゼロショット一般化のためのマルチモーダル大言語モデル(MLLM)の約束に感銘を受けて,医療血管系解剖学の制御可能な生成と構造的理解を結合した統合基盤モデルであるTubeMLLMを提案する。
トポロジ的先行を明示的な自然言語によって統合し、それらを共有アテンションアーキテクチャの視覚的表現と整合させることで、チューブMLLMはトポロジ的認識を著しく強化する。
さらに、包括的トポロジ中心のタスクを含むピオナーマルチモーダルベンチマークであるTubeMDataを構築し、トレーニング中にトポロジクリティカルな領域を強調する適応的損失重み付け戦略を導入する。
15の多様なデータセットに関する大規模な実験は、私たちの優位性を示しています。
定量的には、TubeMLLMは最先端のアウト・オブ・ディストリビューション性能を実現し、カラー・ファンドス・フォトグラフィーにおけるグローバルなトポロジカルな差異を著しく低減する(ベースラインと比較して、$β_{0}$エラーを37.42から8.58に減少させる)。
特にTubeMLLMは、目に見えないX線アンギオグラフィーでは例外的にゼロショットのクロスモダリティ転送能力を示し、Diceスコアは67.50%となり、β_{0}$エラーは1.21ドルに大幅に減少する。
チューブMLLMは、ブラー、ノイズ、低解像度などの劣化に対する堅牢性も維持する。
さらに、トポロジを意識した理解タスクでは、マスクのトポロジ的品質の評価において97.38%の精度が達成され、標準的な視覚言語ベースラインを著しく上回る。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches [5.958100741754613]
インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。
そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。
解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
論文 参考訳(メタデータ) (2025-12-05T08:49:57Z) - MDF-MLLM: Deep Fusion Through Cross-Modal Feature Alignment for Contextually Aware Fundoscopic Image Classification [0.32622301272834514]
既存のマルチモーダル大言語モデル(MLLM)は網膜疾患の診断に不可欠な低レベルの空間的詳細を捉えるのに苦労することが多い。
このモデル開発と検証は、3つの公開データセットからコンパイルされた1,305個の画像テキストペアに対して行われた。
MDF-MLLMは、4つのU-Net層エンコーダからLLaMA 3.2 11B MLLM内のクロスアテンションブロックへのスキップ機能を統合する。
論文 参考訳(メタデータ) (2025-09-21T05:46:35Z) - WLFM: A Well-Logs Foundation Model for Multi-Task and Cross-Well Geological Interpretation [12.858491655938026]
1200の井戸からのマルチカーブログを事前訓練した基礎モデルWLFMを提案する。
WLFMは一貫して最先端のベースラインを上回り、ポロシティ推定では0.0041 MSE、リソロジー分類では74.13%の精度を達成している。
これらの結果は、WLFMを地質学的AIのスケーラブルで解釈可能なバックボーンとして確立し、ログ、地震、テキストデータのマルチモーダル統合に寄与する。
論文 参考訳(メタデータ) (2025-09-16T14:59:45Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning Interpretable Microscopic Features of Tumor by Multi-task
Adversarial CNNs To Improve Generalization [1.7371375427784381]
既存のCNNモデルはブラックボックスとして機能し、医師が重要な診断機能がモデルによって使用されることを保証しない。
ここでは,マルチタスクと敵の損失を両立させる不確実性に基づく重み付けの組み合わせをエンド・ツー・エンドで学習することにより,病理的特徴に焦点を合わせることを推奨する。
AUC 0.89 (0.01) がベースラインであるAUC 0.86 (0.005) に対して最も高い値を示した。
論文 参考訳(メタデータ) (2020-08-04T12:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。