論文の概要: MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging
- arxiv url: http://arxiv.org/abs/2511.10013v1
- Date: Fri, 14 Nov 2025 01:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.639347
- Title: MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging
- Title(参考訳): MIRNet:診断医用イメージングのための事前トレーニングによる制約付きグラフベース推論の統合
- Authors: Shufeng Kong, Zijie Wang, Nuan Cui, Hao Tang, Yihan Meng, Yuanyuan Wei, Feifan Chen, Yingheng Wang, Zhuo Cai, Yaonan Wang, Yulong Zhang, Yuzheng Li, Zibin Zheng, Caihua Liu,
- Abstract要約: MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
- 参考スコア(独自算出の注目度): 67.74482877175797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interpretation of medical images demands robust modeling of complex visual-semantic relationships while addressing annotation scarcity, label imbalance, and clinical plausibility constraints. We introduce MIRNet (Medical Image Reasoner Network), a novel framework that integrates self-supervised pre-training with constrained graph-based reasoning. Tongue image diagnosis is a particularly challenging domain that requires fine-grained visual and semantic understanding. Our approach leverages self-supervised masked autoencoder (MAE) to learn transferable visual representations from unlabeled data; employs graph attention networks (GAT) to model label correlations through expert-defined structured graphs; enforces clinical priors via constraint-aware optimization using KL divergence and regularization losses; and mitigates imbalance using asymmetric loss (ASL) and boosting ensembles. To address annotation scarcity, we also introduce TongueAtlas-4K, a comprehensive expert-curated benchmark comprising 4,000 images annotated with 22 diagnostic labels--representing the largest public dataset in tongue analysis. Validation shows our method achieves state-of-the-art performance. While optimized for tongue diagnosis, the framework readily generalizes to broader diagnostic medical imaging tasks.
- Abstract(参考訳): 医用画像の自動解釈は、アノテーションの不足、ラベルの不均衡、臨床的妥当性の制約に対処しながら、複雑な視覚的意味関係の堅牢なモデリングを要求する。
MIRNet(Medical Image Reasoner Network)は、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
舌の画像診断は、細かな視覚的および意味的な理解を必要とする、特に困難な領域である。
提案手法では,自己教師付きマスク付きオートエンコーダ(MAE)を用いて,ラベル付きデータから伝達可能な視覚表現を学習し,専門家が定義した構造化グラフを用いてラベル相関をモデル化するグラフアテンションネットワーク(GAT)を用いて,KLの分散と正規化損失を用いた制約認識最適化,非対称損失(ASL)を用いた不均衡の緩和,アンサンブルの強化などを行う。
TongueAtlas-4Kは、22の診断ラベルで注釈付けされた4000の画像からなる包括的な専門家によるベンチマークで、舌分析における最大の公開データセットを表現している。
検証は、我々の手法が最先端のパフォーマンスを達成することを示す。
舌の診断に最適化されているが、このフレームワークはより広い診断医療画像タスクに容易に一般化できる。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Computed Tomography Visual Question Answering with Cross-modal Feature Graphing [16.269682136158004]
医用画像における視覚的質問応答 (VQA) は、自然言語クエリに応答して複雑な画像データを自動的に解釈することにより、臨床診断を支援することを目的としている。
既存の研究は、医用画像と臨床の質問から特徴を独立して抽出するために、視覚的およびテキスト的エンコーダに頼っている。
本稿では,有能な特徴のグラフ表現によって強化された新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-06T10:37:16Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.0659716298839]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - Learning Generalized Medical Image Representations through Image-Graph Contrastive Pretraining [11.520404630575749]
胸部X線と構造化レポート知識グラフを組み合わせた画像グラフコントラスト学習フレームワークを開発した。
提案手法は,リレーショナルグラフ畳み込みネットワークとトランスフォーマーアテンションを介して,非連結グラフ成分を一意に符号化する。
論文 参考訳(メタデータ) (2024-05-15T12:27:38Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Dynamic Graph Correlation Learning for Disease Diagnosis with Incomplete
Labels [66.57101219176275]
胸部X線画像上の疾患診断は,多ラベル分類の課題である。
本稿では,異なる疾患間の相互依存を調査する新たな視点を提示する病的診断グラフ畳み込みネットワーク(DD-GCN)を提案する。
本手法は,相関学習のための動的隣接行列を用いた特徴写像上のグラフを初めて構築する手法である。
論文 参考訳(メタデータ) (2020-02-26T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。