論文の概要: Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D
- arxiv url: http://arxiv.org/abs/2602.22098v1
- Date: Wed, 25 Feb 2026 16:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.91713
- Title: Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D
- Title(参考訳): Brain3D: インフレーションされた視覚変換器による脳波の自動化
- Authors: Mariano Barone, Francesco Di Serio, Giuseppe Riccio, Antonio Romano, Marco Postiglione, Antonino Ferraro, Vincenzo Moscato,
- Abstract要約: textbfBrain3Dは3次元脳腫瘍MRIから自動放射線診断レポートを生成するための視覚言語フレームワークである。
textbfBrain3Dは、半球側方性、腫瘍浸潤パターン、解剖学的局在が重要である神経放射線学に適合している。
- 参考スコア(独自算出の注目度): 12.151255989796363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current medical vision-language models (VLMs) process volumetric brain MRI using 2D slice-based approximations, fragmenting the spatial context required for accurate neuroradiological interpretation. We developed \textbf{Brain3D}, a staged vision-language framework for automated radiology report generation from 3D brain tumor MRI. Our approach inflates a pretrained 2D medical encoder into a native 3D architecture and progressively aligns it with a causal language model through three stages: contrastive grounding, supervised projector warmup, and LoRA-based linguistic specialization. Unlike generalist 3D medical VLMs, \textbf{Brain3D} is tailored to neuroradiology, where hemispheric laterality, tumor infiltration patterns, and anatomical localization are critical. Evaluated on 468 subjects (BraTS pathological cases plus healthy controls), our model achieves a Clinical Pathology F1 of 0.951 versus 0.413 for a strong 2D baseline while maintaining perfect specificity on healthy scans. The staged alignment proves essential: contrastive grounding establishes visual-textual correspondence, projector warmup stabilizes conditioning, and LoRA adaptation shifts output from verbose captions to structured clinical reports\footnote{Our code is publicly available for transparency and reproducibility
- Abstract(参考訳): 現在の医療ビジョン言語モデル(VLM)は、2次元スライスに基づく近似を用いて体積脳MRIを処理し、正確な神経放射線学的解釈に必要な空間的コンテキストを断片化する。
3次元脳腫瘍MRIから自動放射線診断レポートを生成するための段階的視覚言語フレームワークであるtextbf{Brain3D}を開発した。
提案手法は,訓練済みの2次元医療エンコーダをネイティブな3Dアーキテクチャに拡張し,コントラストグラウンド,プロジェクタウォームアップ,LoRAに基づく言語特化の3段階を通じて,因果言語モデルに段階的に対応させる。
一般的な3D医療用VLMとは異なり、 \textbf{Brain3D} は、半球側方性、腫瘍浸潤パターン、解剖学的局在が重要である神経放射線学に特化している。
患者468名(BraTS病例と健康管理)を対象に,健康スキャンの完全特異性を保ちながら,強い2次元ベースラインに対して0.951対0.413の臨床病理F1を達成した。
プロジェクターウォームアップは条件付けを安定させ、LoRA適応は口頭字幕から構造化された臨床報告へ出力をシフトする。
関連論文リスト
- Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging [19.44554736205812]
BTB3D(Better Tokens for Better 3D)は2Dと3Dのトレーニングと推論を統一した因果畳み込みエンコーダである。
3段階の訓練カリキュラムでは、(i)局所的な再構築、(ii)オーバーラップウインドウタイリング、(iii)ロングコンテクストデコーダリファインメントが可能である。
BLEUスコアを向上し、CT2Rep、CT-CHAT、Merlinよりも臨床F1を40%向上させる。
GenerateCTやMedSynと比べて、FIDを75%削減し、FVDを半減する。
論文 参考訳(メタデータ) (2025-10-23T15:13:13Z) - Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance [2.6516813733155407]
フリーフォーム言語プロンプトによって誘導される高精細な3次元医療画像を生成することのできるフレームワークを提案する。
以上の結果から,3次元医用画像における急速進行解析の基礎となった。
論文 参考訳(メタデータ) (2025-09-07T08:52:18Z) - Brain3D: Generating 3D Objects from fMRI [78.46936519561298]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - On the Localization of Ultrasound Image Slices within Point Distribution
Models [84.27083443424408]
甲状腺疾患は高分解能超音波(US)で診断されることが多い
縦断追跡は病理甲状腺形態の変化をモニタリングするための重要な診断プロトコルである。
3次元形状表現におけるUS画像の自動スライスローカライズのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T10:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。