論文の概要: SliceWorld: A Predictive and Controllable World-State Model for CT Report Generation
- arxiv url: http://arxiv.org/abs/2605.24371v1
- Date: Sat, 23 May 2026 03:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.959201
- Title: SliceWorld: A Predictive and Controllable World-State Model for CT Report Generation
- Title(参考訳): SliceWorld:CTレポート生成のための予測可能で制御可能な世界状態モデル
- Authors: Yuanhe Tian, Yan Song,
- Abstract要約: 我々は、軸方向CTスキャンをz軸に沿って順序付けられたシーケンスとして扱う、CT固有の世界状態フレームワークであるSliceWorldを提案する。
我々は,SliceWorldが自然言語生成の指標と臨床指向の自動評価を改善したことを示す。
- 参考スコア(独自算出の注目度): 22.24208120178663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CT report generation (CTRG) requires models to summarize three-dimensional anatomical context and pathological findings from hundreds of axial slices. Existing methods typically learn a direct image-to-text mapping, providing limited mechanisms for modeling how CT evidence evolves across slices or how reports respond to controlled changes in latent lesion-related factors. We propose SliceWorld, a CT-specific world-state framework that treats an axial CT scan as an ordered sequence along the z-axis. SliceWorld encodes prefix CT evidence into factor-aware latent states containing anatomy, lesion, and uncertainty components, and projects these states into world tokens used for multi-step future-slice feature prediction, lesion-factor intervention, and LLM-based report generation. The model is first pretrained on CT slice sequences with predictive, factor-aware, and counterfactual objectives, and is then fine-tuned on paired CT-report data. Experiments on M3D-Cap and CT-RATE show that SliceWorld improves natural language generation metrics and clinically oriented automatic evaluation. Further analyses demonstrate multi-horizon future-slice prediction, measurable factor alignment, reduced-slice robustness, and selective lesion-sensitive report modulation.
- Abstract(参考訳): CTレポート生成(CTRG)は、数百の軸方向スライスから3次元解剖学的文脈と病理学的所見を要約するモデルを必要とする。
既存の方法は、通常、直接画像からテキストへのマッピングを学習し、CTエビデンスがどのようにスライスを横断して進化するか、あるいは潜在病変関連因子の制御された変化にどのように反応するかをモデル化するための限定的なメカニズムを提供する。
我々は、軸方向CTスキャンをz軸に沿って順序付けられたシーケンスとして扱う、CT固有の世界状態フレームワークであるSliceWorldを提案する。
SliceWorldは、プレフィックスCTの証拠を解剖、病変、不確実性成分を含む因子認識潜在状態にエンコードし、これらの状態を多段階の将来の特徴予測、病変要素の介入、LSMベースのレポート生成に使用する世界トークンに投影する。
このモデルはまず、予測的、因子認識、および対物的目的を持ったCTスライスシーケンスで事前訓練され、その後、ペア化されたCTレポートデータに基づいて微調整される。
M3D-CapとCT-RATEの実験では、SliceWorldは自然言語生成の指標を改善し、臨床指向の自動評価を行う。
さらに,マルチホライズン・フューチャースライス予測,測定可能な因子アライメント,スライス・ロバストネス,選択的病変感受性レポート・モジュレーションなどの分析を行った。
関連論文リスト
- MedScribe: Clinically Grounded CT Reporting through Agentic Workflows [13.40306812882295]
視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示している。
我々は,仮説駆動型フレームワークであるMedScribeを紹介し,レポート生成を反復的証拠取得プロセスとして再構築する。
論文 参考訳(メタデータ) (2026-05-03T08:32:40Z) - EXACT: an explainable anomaly-aware vision foundation model for analysis of 3D chest CT [29.0378459959757]
EXACTは3次元胸部CTの異常認識基盤モデルである。
2つの臨床スキャンと放射線学レポートから空間的に解決された表現を学習する。
EXACTは臨床的に関係のあるCTタスクに対して一貫した改善を示す。
論文 参考訳(メタデータ) (2026-04-27T07:57:47Z) - CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation [51.11942945171396]
従来の評価指標は、語彙重なり合いやエンティティマッチングの粗い尺度のみを提供する。
我々はCT-RATEとMerlinのベンチマークであるCT-FineBenchを提案し、CTレポートの微細な事実整合性を評価する。
我々のベンチマークは、綿密な質問回答(QA)ベースのプロセスによって構築されます。
論文 参考訳(メタデータ) (2026-04-27T03:32:46Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Masked Registration and Autoencoding of CT Images for Predictive Tibia Reconstruction [6.613247712629387]
当科では, 骨折を主訴に当科を受診し, 当科を受診し, 当科を受診し, 当科を受診した。
我々のap-proachは、ニューラル登録とオートエンコーダモデルを組み合わせています。
論文 参考訳(メタデータ) (2025-12-10T11:04:28Z) - CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis [7.57931364659531]
臨床報告に条件付き潜時流整合変圧器モデルであるCTFlowを紹介する。
FLUXのA-VAEを用いて潜伏空間を定義し,CT-Clipテキストエンコーダを用いて臨床報告を符号化する。
我々は,現状のCTモデルと比較し,時間的コヒーレンス,画像の多様性,テキスト画像のアライメントの観点から,我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2025-08-18T12:58:21Z) - A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [4.408787333571913]
本稿では,自動腎CTレポート作成のための枠組みを提案する。
ステージ1では、マルチタスク学習モデルが、各2次元画像から構造化された臨床特徴を検出する。
ステージ2では、視覚言語モデルが画像と検出された特徴に条件付けされた自由テキストレポートを生成する。
論文 参考訳(メタデータ) (2025-06-30T07:45:02Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Explainable multiple abnormality classification of chest CT volumes with
AxialNet and HiResCAM [89.2175350956813]
本稿では,容積医用画像における多変量分類の課題について紹介する。
本稿では,複数のインスタンス学習型畳み込みニューラルネットワークであるAxialNetを提案する。
そして、HiResCAMと3D許容領域を利用した新しいマスクロスにより、モデルの学習を改善することを目指す。
論文 参考訳(メタデータ) (2021-11-24T01:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。