論文の概要: U-VLM: Hierarchical Vision Language Modeling for Report Generation
- arxiv url: http://arxiv.org/abs/2603.00479v1
- Date: Sat, 28 Feb 2026 05:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.216943
- Title: U-VLM: Hierarchical Vision Language Modeling for Report Generation
- Title(参考訳): U-VLM:レポート生成のための階層型視覚言語モデリング
- Authors: Pengcheng Shi, Minghui Zhang, Kehan Song, Jiaqi Liu, Yun Gu, Xinglin Zhang,
- Abstract要約: トレーニングとアーキテクチャの両方において階層型視覚言語モデリングを可能にするU-VLMを提案する。
U-VLMはCT-RATEとAbdomenAtlas 3.0で、スクラッチからトレーニングされた0.1Bデコーダのみを使用して、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.09433657986766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated radiology report generation is key for reducing radiologist workload and improving diagnostic consistency, yet generating accurate reports for 3D medical imaging remains challenging. Existing vision-language models face two limitations: they do not leverage segmentation-pretrained encoders, and they inject visual features only at the input layer of language models, losing multi-scale information. We propose U-VLM, which enables hierarchical vision-language modeling in both training and architecture: (1) progressive training from segmentation to classification to report generation, and (2) multi-layer visual injection that routes U-Net encoder features to corresponding language model layers. Each training stage can leverage different datasets without unified annotations. U-VLM achieves state-of-the-art performance on CT-RATE (F1: 0.414 vs 0.258, BLEU-mean: 0.349 vs 0.305) and AbdomenAtlas 3.0 (F1: 0.624 vs 0.518 for segmentation-based detection) using only a 0.1B decoder trained from scratch, demonstrating that well-designed vision encoder pretraining outweighs the benefits of 7B+ pre-trained language models. Ablation studies show that progressive pretraining significantly improves F1, while multi-layer injection improves BLEU-mean. Code is available at https://github.com/yinghemedical/U-VLM.
- Abstract(参考訳): 放射線医の作業量を削減し、診断の整合性を向上させる上では、自動放射線学レポート生成が重要であるが、3D医療画像の正確なレポートを生成することは依然として困難である。
既存の視覚言語モデルは、セグメンテーションで制約されたエンコーダを利用せず、言語モデルの入力層にのみ視覚的特徴を注入し、マルチスケール情報を失うという2つの制限に直面している。
トレーニングとアーキテクチャの両方において階層型視覚言語モデリングを可能にするU-VLMを提案する。(1)セグメンテーションから分類からレポート生成へ、(2)U-Netエンコーダ機能を対応する言語モデル層にルーティングする多層ビジュアルインジェクション。
各トレーニングステージは、統一アノテーションなしで、さまざまなデータセットを活用することができる。
U-VLMはCT-RATE(F1: 0.414 vs 0.258, BLEU-mean: 0.349 vs 0.305)とAbdomenAtlas 3.0(F1: 0.624 vs 0.518 for segmentation-based detection)の最先端性能を、スクラッチからトレーニングされた0.1Bデコーダのみを用いて達成し、十分に設計されたビジョンエンコーダが7B+事前訓練言語モデルの利点を上回ることを実証した。
アブレーション研究により、プログレッシブプレトレーニングはF1を大幅に改善し、マルチレイヤーインジェクションはBLEU-meanを改善した。
コードはhttps://github.com/yinghemedical/U-VLMで入手できる。
関連論文リスト
- DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning [94.62097655403683]
本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。
提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。
MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
論文 参考訳(メタデータ) (2025-12-14T18:45:54Z) - Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging [19.44554736205812]
BTB3D(Better Tokens for Better 3D)は2Dと3Dのトレーニングと推論を統一した因果畳み込みエンコーダである。
3段階の訓練カリキュラムでは、(i)局所的な再構築、(ii)オーバーラップウインドウタイリング、(iii)ロングコンテクストデコーダリファインメントが可能である。
BLEUスコアを向上し、CT2Rep、CT-CHAT、Merlinよりも臨床F1を40%向上させる。
GenerateCTやMedSynと比べて、FIDを75%削減し、FVDを半減する。
論文 参考訳(メタデータ) (2025-10-23T15:13:13Z) - Comprehensive language-image pre-training for 3D medical image understanding [40.12276593119101]
ビジョン言語による事前学習、すなわち画像とペアテキストの整列はエンコーダを作成するための強力なパラダイムである。
我々は,包括的言語画像事前学習(COLIPRI)エンコーダファミリーを開発した。
我々のCOLIPRIエンコーダは、レポート生成、分類探索、ゼロショット分類において最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-16T18:01:31Z) - More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era [7.5669441185108015]
大規模言語モデル(LLM)は、大規模な教師付き事前訓練を容易にする。
LLMは、放射線診断レポートから診断ラベルを顕著な精度で抽出することができる。
教師付き事前学習は、コントラスト的な視覚言語アライメントを根本的に改善することを示す。
論文 参考訳(メタデータ) (2025-09-16T15:27:14Z) - Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context [0.16385815610837165]
視覚言語モデル(VLM)は大規模言語モデル(LLM)とともに急速に進歩している。
本研究は,GPT-4.1 や Gemini 2.5 Pro などの卓越したVLMの病理組織像分類機能について検討した。
論文 参考訳(メタデータ) (2025-06-15T01:50:16Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。