論文の概要: Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation
- arxiv url: http://arxiv.org/abs/2603.08305v1
- Date: Mon, 09 Mar 2026 12:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.910298
- Title: Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation
- Title(参考訳): 検索によるテキスト・ツー・CT生成のための解剖学的ガイダンス
- Authors: Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi,
- Abstract要約: 本研究では,現実的な推論環境下で意味情報と解剖情報を統合したテキスト・ツー・CT生成のための検索拡張手法を提案する。
CT-RATEデータセットを用いた実験により,検索拡張生成は,テキストのみのベースラインに比べて画像の忠実度と臨床整合性を向上することが示された。
本研究は,容積医用画像合成における意味的条件付けと解剖学的妥当性を橋渡しする,原則的かつスケーラブルな機構を導入する。
- 参考スコア(独自算出の注目度): 1.5532758127091075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-conditioned generative models for volumetric medical imaging provide semantic control but lack explicit anatomical guidance, often resulting in outputs that are spatially ambiguous or anatomically inconsistent. In contrast, structure-driven methods ensure strong anatomical consistency but typically assume access to ground-truth annotations, which are unavailable when the target image is to be synthesized. We propose a retrieval-augmented approach for Text-to-CT generation that integrates semantic and anatomical information under a realistic inference setting. Given a radiology report, our method retrieves a semantically related clinical case using a 3D vision-language encoder and leverages its associated anatomical annotation as a structural proxy. This proxy is injected into a text-conditioned latent diffusion model via a ControlNet branch, providing coarse anatomical guidance while maintaining semantic flexibility. Experiments on the CT-RATE dataset show that retrieval-augmented generation improves image fidelity and clinical consistency compared to text-only baselines, while additionally enabling explicit spatial controllability, a capability inherently absent in such approaches. Further analysis highlights the importance of retrieval quality, with semantically aligned proxies yielding consistent gains across all evaluation axes. This work introduces a principled and scalable mechanism to bridge semantic conditioning and anatomical plausibility in volumetric medical image synthesis. Code will be released.
- Abstract(参考訳): ボリューム・メディカル・イメージングのためのテキスト条件付き生成モデルは意味制御を提供するが、明確な解剖学的ガイダンスが欠如しており、しばしば空間的に曖昧で解剖学的に矛盾する出力をもたらす。
対照的に、構造駆動の手法は強い解剖学的整合性を保証するが、通常、ターゲット画像が合成されるときに利用できない接地真実アノテーションへのアクセスを前提としている。
本研究では,現実的な推論環境下で意味情報と解剖情報を統合したテキスト・ツー・CT生成のための検索拡張手法を提案する。
放射線学報告を前提として,3次元視覚言語エンコーダを用いて意味的な臨床症例を検索し,その解剖学的アノテーションを構造的プロキシとして活用する。
このプロキシは、コントロールネットブランチを介してテキスト条件付き潜在拡散モデルに注入され、意味的な柔軟性を維持しながら、粗い解剖学的ガイダンスを提供する。
CT-RATEデータセットでの実験では、検索強化世代は、テキストのみのベースラインに比べて画像の忠実度と臨床整合性を向上し、同時に、そのようなアプローチでは本質的に欠落している空間制御性を明示的に実現している。
さらに分析は、すべての評価軸に一貫した利得をもたらす意味的に整列したプロキシによって、検索品質の重要性を強調している。
本研究は,容積医用画像合成における意味的条件付けと解剖学的妥当性を橋渡しする,原則的かつスケーラブルな機構を導入する。
コードはリリースされる。
関連論文リスト
- Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation [21.75204301463342]
ビジョントランスフォーマー(ViT)は3次元の医療セグメンテーションで優れるが、大量のデータセットを必要とする。
Formula-Driven Supervised Learning (F)は、合成数学的プリミティブを事前学習することで、プライバシ保護の代替手段を提供する。
本稿では,Fの無限拡張性と解剖学的リアリズムを一体化するための注釈付きインフォームド・シンセティック・アナトロジー・プレトレーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T08:15:18Z) - Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling [8.024142807011378]
バイオメディカル・イメージ・フォージェリーの生成と検出を両立させる最初の視覚言語ガイドフレームワークを提案する。
拡散に基づく合成と視覚言語プロンプトを組み合わせることで,現実的かつ意味論的に制御された操作を可能にする。
Integscanは、検出とローカライゼーションの両方において、技術パフォーマンスの状態を達成し、自動化された科学的完全性分析の強力な基盤を確立する。
論文 参考訳(メタデータ) (2026-01-12T22:13:58Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - GRASPing Anatomy to Improve Pathology Segmentation [67.98147643529309]
本稿では,病的セグメンテーションモデルを強化するモジュール型プラグイン・アンド・プレイフレームワークGRASPを紹介する。
2つのPET/CTデータセット上でGRASPを評価し、系統的アブレーション研究を行い、フレームワークの内部動作について検討する。
論文 参考訳(メタデータ) (2025-08-05T12:26:36Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Anatomical Attention Alignment representation for Radiology Report Generation [10.887845017050477]
Anatomical Attention Alignment Network (A3Net)は、超視覚的表現を構築することで視覚的テキスト理解を強化するフレームワークである。
本手法では,解剖学的構造とパッチレベルの視覚的特徴の知識辞書を統合し,画像領域を対応する解剖学的実体と効果的に関連付けることができる。
IU X-RayとMIMIC-CXRデータセットの実験結果から、A3Netは視覚知覚とテキスト生成品質の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-05-12T15:54:50Z) - Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。