論文の概要: Beyond the Embedding Bottleneck: Adaptive Retrieval-Augmented 3D CT Report Generation
- arxiv url: http://arxiv.org/abs/2603.15822v1
- Date: Mon, 16 Mar 2026 18:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.954919
- Title: Beyond the Embedding Bottleneck: Adaptive Retrieval-Augmented 3D CT Report Generation
- Title(参考訳): 埋め込みボトルネックを超えて : 適応検索による3DCTレポート生成
- Authors: Renjie Liang, Yiling Ma, Yang Xing, Zhengkang Fan, Jinqian Pan, Chengkun Sun, Li Li, Kuang Gong, Jie Xu,
- Abstract要約: 3D CTは鑑別病理信号をエンコードするが, 重度濃度は高い。
この視覚的ボトルネックを補う適応的な拡張フレームワークである textbfAdaRAG-CT を提案する。
AdaRAG-CTは最先端の臨床効果を達成し、臨床F1を0.420(CT-Agent)から0.480(+6ポイント)に改善する
- 参考スコア(独自算出の注目度): 10.885951167009694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated radiology report generation from 3D CT volumes often suffers from incomplete pathology coverage. We provide empirical evidence that this limitation stems from a representational bottleneck: contrastive 3D CT embeddings encode discriminative pathology signals, yet exhibit severe dimensional concentration, with as few as 2 effective dimensions out of 512. Corroborating this, scaling the language model yields no measurable improvement, suggesting that the bottleneck lies in the visual representation rather than the generator. This bottleneck limits both generation and retrieval; naive static retrieval fails to improve clinical efficacy and can even degrade performance. We propose \textbf{AdaRAG-CT}, an adaptive augmentation framework that compensates for this visual bottleneck by introducing supplementary textual information through controlled retrieval and selectively integrating it during generation. On the CT-RATE benchmark, AdaRAG-CT achieves state-of-the-art clinical efficacy, improving Clinical F1 from 0.420 (CT-Agent) to 0.480 (+6 points); ablation studies confirm that both the retrieval and generation components contribute to the improvement. Code is available at https://github.com/renjie-liang/Adaptive-RAG-for-3DCT-Report-Generation.
- Abstract(参考訳): 3次元CTボリュームからの自動放射線診断報告は、しばしば不完全な病態カバレッジに悩まされる。
比較的3次元CT埋め込みは, 識別的病理信号をエンコードするが, 512個のうち2個の有効次元しか持たない, 重度の次元集中を呈する。
これと組み合わせると、言語モデルをスケールしても測定可能な改善は得られず、ボトルネックはジェネレータではなく視覚表現にあることを示唆している。
このボトルネックは、生成と検索の両方を制限する。単純で静的な検索は、臨床的有効性を改善することができず、パフォーマンスを低下させる。
本稿では,この視覚的ボトルネックを補う適応的拡張フレームワークである‘textbf{AdaRAG-CT} を提案する。
CT-RATEベンチマークでは、AdaRAG-CTは最先端の臨床効果を達成し、臨床F1を0.420(CT-Agent)から0.480(+6ポイント)に改善する。
コードはhttps://github.com/renjie-liang/Adaptive-RAG-for-3DCT-Report-Generationで入手できる。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - CT Scans As Video: Efficient Intracranial Hemorrhage Detection Using Multi-Object Tracking [0.9332987715848716]
本稿では,2次元検出の効率と3次元コンテキストの必要性を両立させる軽量コンピュータビジョンフレームワークを開発する。
計算コストのごく一部で3Dコンテキスト推論を近似することにより,リアルタイム患者優先化のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-05T19:49:51Z) - Structured Spectral Graph Representation Learning for Multi-label Abnormality Analysis from 3D CT Scans [0.0]
3次元胸部CTスキャンのマルチラベル分類は依然として重要な課題である。
3次元畳み込みニューラルネットワークに基づく既存の手法は、長距離依存を捉えるのに苦労する。
本稿では3次元CTボリュームを構造化グラフとして表現するグラフベースの新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-12T19:49:51Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [1.447808799346751]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Spatial-aware Transformer-GRU Framework for Enhanced Glaucoma Diagnosis from 3D OCT Imaging [3.093890460224435]
本稿では3次元光コヒーレンス・トモグラフィー(OCT)画像の診断値を利用した新しいディープラーニングフレームワークを提案する。
我々は、リッチスライスな特徴抽出のための網膜データに事前学習された視覚変換器と、スライス間空間依存性をキャプチャするための双方向Gated Recurrent Unitを統合する。
論文 参考訳(メタデータ) (2024-03-08T22:25:15Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。