論文の概要: BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model
- arxiv url: http://arxiv.org/abs/2511.20956v1
- Date: Wed, 26 Nov 2025 01:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.913555
- Title: BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model
- Title(参考訳): BUSTR:ディスクリプタ・アウェア・ビジョン・ランゲージモデルによる乳房超音波テキストのレポーティング
- Authors: Rawa Mohammed, Mina Attin, Bryar Shareef,
- Abstract要約: 乳房超音波(BUS)のための自動放射線診断レポート生成(RRG)は、ペア画像レポートデータセットの欠如により制限される。
本稿では,BUSレポートを生成するマルチタスク・ビジョン言語フレームワークであるBUSTRを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated radiology report generation (RRG) for breast ultrasound (BUS) is limited by the lack of paired image-report datasets and the risk of hallucinations from large language models. We propose BUSTR, a multitask vision-language framework that generates BUS reports without requiring paired image-report supervision. BUSTR constructs reports from structured descriptors (e.g., BI-RADS, pathology, histology) and radiomics features, learns descriptor-aware visual representations with a multi-head Swin encoder trained using a multitask loss over dataset-specific descriptor sets, and aligns visual and textual tokens via a dual-level objective that combines token-level cross-entropy with a cosine-similarity alignment loss between input and output representations. We evaluate BUSTR on two public BUS datasets, BrEaST and BUS-BRA, which differ in size and available descriptors. Across both datasets, BUSTR consistently improves standard natural language generation metrics and clinical efficacy metrics, particularly for key targets such as BI-RADS category and pathology. Our results show that this descriptor-aware vision model, trained with a combined token-level and alignment loss, improves both automatic report metrics and clinical efficacy without requiring paired image-report data. The source code can be found at https://github.com/AAR-UNLV/BUSTR
- Abstract(参考訳): 乳房超音波(BUS)に対する自動放射線診断レポート生成(RRG)は、ペア画像レポートデータセットの欠如と、大きな言語モデルによる幻覚のリスクによって制限される。
本稿では,BUSレポートを生成するマルチタスク・ビジョン言語フレームワークであるBUSTRを提案する。
BUSTRは、構造化ディスクリプタ(例えば、BI-RADS、病理、組織学)とラジオミクスの特徴からのレポートを構築し、データセット固有の記述子セットよりもマルチタスクロスを使用して訓練されたマルチヘッドSwinエンコーダでディスクリプタ対応のビジュアル表現を学び、トークンレベルのクロスエントロピーと入力と出力表現の間のコサイン類似性アライメント損失を結合したデュアルレベルな目的によって、視覚的およびテキスト的トークンを整列する。
BUSTRを2つの公開BUSデータセットであるBrEaSTとBUS-BRAで評価した。
両方のデータセット全体で、BUSTRは標準自然言語生成指標と臨床効果指標を一貫して改善している。
以上の結果から,トークンレベルとアライメントロスを併用してトレーニングしたこのディスクリプタ対応視覚モデルでは,ペア画像レポーティングデータを必要とせず,自動レポート計測と臨床効果を両立させることができた。
ソースコードはhttps://github.com/AAR-UNLV/BUSTRにある。
関連論文リスト
- $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation [9.947108972979155]
我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。
中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。
そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
論文 参考訳(メタデータ) (2025-06-30T23:14:49Z) - Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts [15.349894506969074]
我々は,多言語および多言語による米国レポート生成のための統一的なフレームワークを提案する。
方法は、臓器部位や言語間で一貫性があり、臨床的に正確なテキスト生成を実現する。
論文 参考訳(メタデータ) (2025-05-13T08:27:01Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Factual Serialization Enhancement: A Key Innovation for Chest X-ray Report Generation [15.82363717056198]
放射線学報告は、明瞭さと組織を確実にするプレゼンテーションスタイルの語彙を含む。
この過程における重要なステップは、ラジオグラフを対応するレポートと整列させることである。
この問題に対処するために、FSE(Factual Serialization Enhancement Method)を提案する。
論文 参考訳(メタデータ) (2024-05-15T07:56:38Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。