論文の概要: Automatic Fine-grained Segmentation-assisted Report Generation
- arxiv url: http://arxiv.org/abs/2507.16623v1
- Date: Tue, 22 Jul 2025 14:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.149754
- Title: Automatic Fine-grained Segmentation-assisted Report Generation
- Title(参考訳): きめ細かなセグメンテーション支援レポートの自動生成
- Authors: Frederic Jonske, Constantin Seibold, Osman Alperen Koras, Fin Bahnsen, Marie Bauer, Amin Dada, Hamza Kalisch, Anton Schily, Jens Kleesiek,
- Abstract要約: 本稿では,レポート生成のためのLLaVAアーキテクチャの拡張であるASaRGを紹介する。
提案手法は,LLaVAベースラインに比べてCE F1スコアが0.89%向上した。
私たちのコードは後日公開される予定です。
- 参考スコア(独自算出の注目度): 3.6341072547314037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable end-to-end clinical report generation has been a longstanding goal of medical ML research. The end goal for this process is to alleviate radiologists' workloads and provide second opinions to clinicians or patients. Thus, a necessary prerequisite for report generation models is a strong general performance and some type of innate grounding capability, to convince clinicians or patients of the veracity of the generated reports. In this paper, we present ASaRG (\textbf{A}utomatic \textbf{S}egmentation-\textbf{a}ssisted \textbf{R}eport \textbf{G}eneration), an extension of the popular LLaVA architecture that aims to tackle both of these problems. ASaRG proposes to fuse intermediate features and fine-grained segmentation maps created by specialist radiological models into LLaVA's multi-modal projection layer via simple concatenation. With a small number of added parameters, our approach achieves a +0.89\% performance gain ($p=0.012$) in CE F1 score compared to the LLaVA baseline when using only intermediate features, and +2.77\% performance gain ($p<0.001$) when adding a combination of intermediate features and fine-grained segmentation maps. Compared with COMG and ORID, two other report generation methods that utilize segmentations, the performance gain amounts to 6.98\% and 6.28\% in F1 score, respectively. ASaRG is not mutually exclusive with other changes made to the LLaVA architecture, potentially allowing our method to be combined with other advances in the field. Finally, the use of an arbitrary number of segmentations as part of the input demonstrably allows tracing elements of the report to the corresponding segmentation maps and verifying the groundedness of assessments. Our code will be made publicly available at a later date.
- Abstract(参考訳): 医療ML研究の長年の目的は、信頼性の高いエンドツーエンドの臨床報告生成である。
このプロセスの最終的な目標は、放射線医の負担を軽減し、臨床医や患者に第2の意見を提供することである。
このように、レポート生成モデルに必要な前提条件は、報告の正確さを臨床医や患者に納得させるために、強力な総合的なパフォーマンスとある種の自然接地能力である。
本稿では、これらの問題に対処することを目的とした、人気のあるLLaVAアーキテクチャの拡張であるASaRG(\textbf{A}utomatic \textbf{S}egmentation-\textbf{a}ssisted \textbf{R}eport \textbf{G}eneration)を提案する。
ASaRGは、専門の放射線モデルによって生成された中間特徴と細粒度のセグメンテーションマップを、単純な結合によってLLaVAのマルチモーダル射影層に融合することを提案する。
本手法は,中間機能のみを用いる場合のCE F1スコアに対して+0.89\%(p=0.012$),中間機能と細粒度セグメンテーションマップを併用した場合の+2.77\%(p<0.001$)の性能ゲイン(p=0.001$)を実現する。
COMGとORIDに比較して、セグメンテーションを利用する他の2つのレポート生成手法では、それぞれF1スコアの6.98\%と6.28\%となる。
ASaRGはLLaVAアーキテクチャの他の変更と相互に排他的ではないため、この分野の他の進歩と組み合わせることができる可能性がある。
最後に、入力の一部として任意の数のセグメンテーションを使用することで、レポートの要素を対応するセグメンテーションマップにトレースし、アセスメントの基盤性を検証することができる。
私たちのコードは後日公開される予定です。
関連論文リスト
- A Benchmark for End-to-End Zero-Shot Biomedical Relation Extraction with LLMs: Experiments with OpenAI Models [7.923208324118286]
バイオメディカルリレーション抽出タスクの多種多様なサンプリングにおいて,OpenAI LLMの性能パターンについて検討した。
ゼロショット性能は微調整法に近いことが判明した。
論文 参考訳(メタデータ) (2025-04-05T07:08:54Z) - GAUDA: Generative Adaptive Uncertainty-guided Diffusion-based Augmentation for Surgical Segmentation [1.0808810256442274]
我々は、意味的に包括的でコンパクトな(イメージ、マスク)空間の潜在表現を学習する。
提案手法は,目立ったセマンティック・コヒーレンスを持つ高品質なセグメンテーションデータを効果的に合成できることを示す。
論文 参考訳(メタデータ) (2025-01-18T16:40:53Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。
DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-19T07:28:33Z) - Interactive 3D Segmentation for Primary Gross Tumor Volume in Oropharyngeal Cancer [1.9997842016096374]
我々は最先端のアルゴリズムを実装し、新しい2段階のインタラクティブ・クリック・リファインメント・フレームワークを提案する。
2S-ICRフレームワークは、ユーザインタラクションのないDiceの類似係数0.713$pm$0.152と、5つのインタラクション後の0.824$pm$0.099を達成し、どちらの場合も既存の手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-10T15:58:21Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - PAM-UNet: Shifting Attention on Region of Interest in Medical Images [5.730272874074418]
UNetとその変種は、精度と計算効率のバランスをとるという重要な課題に直面している。
本稿では,UnderlineMobile underlineUNetアーキテクチャに基づく新しいアンダーラインプログレッシブアンダーラインAttentionを提案する。
提案手法は精度と速度の両方を優先し,平均IoU 74.65 とダイススコア82.87 の両バランスを達成した。
論文 参考訳(メタデータ) (2024-05-02T17:33:26Z) - HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction [16.060286162384536]
HistGenは、病理組織学レポート生成のための学習可能なフレームワークである。
スライド画像全体(WSI)と局所的およびグローバルな粒度からの診断レポートを整列させることで、レポート生成を促進することを目的としている。
WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-08T15:51:43Z) - Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation [50.407071700154674]
少数ショット学習(FSL)の観点から、アノテーション効率の良い核インスタンスセグメンテーションを定式化することを提案する。
我々の研究は、計算病理学の隆盛とともに、多くの完全注釈付きデータセットが一般に公開されていることに動機づけられた。
いくつかの公開データセットに対する大規模な実験は、SGFSISが他のアノテーション効率のよい学習ベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-26T03:49:18Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Parameter-Efficient Fine-Tuning with Layer Pruning on Free-Text
Sequence-to-Sequence Modeling [5.601559340796398]
本稿では,LoRAと構造化層プルーニングを統合したフレームワークを提案する。
当社のフレームワークは,GPUメモリ使用量の50%削減と,トレーニングフェーズの100%高速化を実現しています。
論文 参考訳(メタデータ) (2023-05-15T00:21:08Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。