論文の概要: Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression
- arxiv url: http://arxiv.org/abs/2603.23308v1
- Date: Tue, 24 Mar 2026 15:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.554935
- Title: Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression
- Title(参考訳): 言語自由な視覚グラフトとゾーン制約圧縮によるカリキュラム駆動型3次元CTレポート生成
- Authors: V. K. Cody Bumgardner, Mitchell A. Klusty, Mahmut S. Gokmen, Evan W. Damron,
- Abstract要約: 胸部CTボリュームから自由テキストレポートを生成するための4段階のカリキュラム学習フレームワークであるKer-VLJEPA-3Bを提案する。
フェーズドトレーニングカリキュラムは、Llama 3.2 3Bデコーダに適応し、凍結した自己監督型エンコーダの視覚的特徴を出力する。
我々の視覚バックボーン(LeJEPA ViT-Large)は、テキスト監督なしで、ラベルなしCTの自己監督共同埋め込み予測によって訓練される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated radiology report generation from 3D computed tomography (CT) volumes is challenging due to extreme sequence lengths, severe class imbalance, and the tendency of large language models (LLMs) to ignore visual tokens in favor of linguistic priors. We present Ker-VLJEPA-3B, a four-phase curriculum learning framework for free-text report generation from thoracic CT volumes. A phased training curriculum progressively adapts a Llama 3.2 3B decoder to ground its output in visual features from a frozen, self-supervised encoder. Our visual backbone (LeJEPA ViT-Large) is trained via self-supervised joint-embedding prediction on unlabeled CTs, without text supervision. Unlike contrastive models (CLIP, BiomedCLIP), this language-free backbone yields modality-pure representations. Vision-language alignment is deferred to the curriculum's bridge and generation phases. This modality-agnostic design can integrate any self-supervised encoder into an LLM without paired text during foundation training. Methodological innovations include: (1) zone-constrained cross-attention compressing slice embeddings into 32 spatially-grounded visual tokens; (2) PCA whitening of anisotropic LLM embeddings; (3) a positive-findings-only strategy eliminating posterior collapse; (4) warm bridge initialization transferring projection weights; and (5) selective cross-attention freezing with elastic weight consolidation to prevent catastrophic forgetting. Evaluated on the CT-RATE benchmark (2,984 validation volumes, 18 classes), Ker-VLJEPA-3B achieves a macro F1 of 0.429, surpassing the state-of-the-art (U-VLM, macro F1 = 0.414) by 3.6%, and reaching 0.448 (+8.2%) with threshold optimization. Ablation studies confirm 56.6% of generation quality derives from patient-specific visual content. Code and weights are available.
- Abstract(参考訳): 3D計算断層撮影(CT)ボリュームから自動放射線学レポートを生成することは、極端なシーケンス長、重度のクラス不均衡、および言語的先行性を支持するために視覚的トークンを無視する大きな言語モデル(LLM)の傾向のために困難である。
胸部CTボリュームから自由テキストレポートを生成するための4段階のカリキュラム学習フレームワークであるKer-VLJEPA-3Bを提案する。
段階訓練カリキュラムは、Llama 3.2 3Bデコーダを段階的に適応させ、凍結した自己監督型エンコーダの視覚的特徴を出力する。
我々の視覚バックボーン(LeJEPA ViT-Large)は、テキスト監督なしで、ラベルなしCTの自己監督共同埋め込み予測によって訓練される。
対照的なモデル(CLIP、BiomedCLIP)とは異なり、この言語のないバックボーンはモダリティ-純粋表現をもたらす。
視覚言語アライメントはカリキュラムのブリッジと生成フェーズに延期される。
このモダリティに依存しない設計は、基礎訓練中にペアテキストなしで自己教師付きエンコーダをLLMに統合することができる。
方法として,(1)空間的に固定された32個の視覚トークンへのゾーン拘束クロスアテンション圧縮スライス埋め込み,(2)異方性LDM埋め込みのPCA白化,(3)後部崩壊を排除した正フィンディングのみ戦略,(4)投射重量を移行する温橋初期化,(5)弾性重みの固化による選択的クロスアテンション凍結などが挙げられる。
CT-RATEベンチマーク(2,984の検証ボリューム、18のクラス)で評価され、Ker-VLJEPA-3Bは0.429のマクロF1を達成し、最先端(U-VLM、マクロF1 = 0.414)を3.6%上回り、しきい値最適化で0.448 (+8.2%)に達した。
アブレーション研究は、56.6%の世代品質が患者固有の視覚的内容に由来することを確認している。
コードとウェイトが利用可能だ。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - U-VLM: Hierarchical Vision Language Modeling for Report Generation [20.09433657986766]
トレーニングとアーキテクチャの両方において階層型視覚言語モデリングを可能にするU-VLMを提案する。
U-VLMはCT-RATEとAbdomenAtlas 3.0で、スクラッチからトレーニングされた0.1Bデコーダのみを使用して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-28T05:43:11Z) - SCALE-VLP: Soft-Weighted Contrastive Volumetric Vision-Language Pre-training with Spatial-Knowledge Semantics [31.49282177777596]
既存のアプローチでは、スキャンを独立した2Dスライスとして扱い、空間コヒーレンスを妥協し、臨床的意味論を過小評価する。
空間意味論とドメイン認識表現を統合したソフトウェイトなコントラスト型視覚言語学習フレームワークを提案する。
これにより、構造的に一貫性があり、セマンティックに根ざした表現が監督され、クロスタスクの転送可能性(検索、レポート生成、分類)とドメイン間の一般化可能性を示す。
論文 参考訳(メタデータ) (2025-11-04T21:03:17Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era [7.5669441185108015]
大規模言語モデル(LLM)は、大規模な教師付き事前訓練を容易にする。
LLMは、放射線診断レポートから診断ラベルを顕著な精度で抽出することができる。
教師付き事前学習は、コントラスト的な視覚言語アライメントを根本的に改善することを示す。
論文 参考訳(メタデータ) (2025-09-16T15:27:14Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation [55.325956390997]
本稿では,医用画像セグメンテーションのための親和性グラフ誘導半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。
このフレームワークは、まず、ロバストな初期特徴空間を提供する平均パッチエントロピー駆動のパッチ間サンプリング法を設計する。
完全アノテーションセットの10%に過ぎず, 完全注釈付きベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-14T10:44:47Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。