論文の概要: Beyond Masks: The Case for Medical Image Parsing
- arxiv url: http://arxiv.org/abs/2605.11438v1
- Date: Tue, 12 May 2026 02:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.535018
- Title: Beyond Masks: The Case for Medical Image Parsing
- Title(参考訳): マスクを超えて:医療画像解析の事例
- Authors: Siddharth Gupta, Alan L. Yuille, Zongwei Zhou,
- Abstract要約: 医用画像研究は、医用画像解析を中心的出力とするべきであると論じる。
属性は、それらのエンティティを記述し、マージンの規則性、エンハンスメントパターン、グレードなどのものをキャプチャする。
このような出力を生成するためのフィールドがどの程度近いかをテストするために、3つのパースプリミティブとクロージャに対して11の代表的なシステムを監査する。
- 参考スコア(独自算出の注目度): 55.19291862464811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical imaging research has spent a decade getting very good at one thing: producing per-voxel masks. Masks tell us size, volume, and location, and a decade of clinical infrastructure rests on those outputs. Yet the report a radiologist writes contains almost nothing a mask can express. We argue that medical imaging research should adopt medical image parsing as its central output: a structured representation in which entities, attributes, and relationships are emitted together and mutually consistent. Entities are the named structures and findings, present or absent. Attributes describe those entities, capturing things like margin regularity, enhancement pattern, or severity grade. Relationships connect them, naming where one structure sits relative to another, what abuts what, and what has changed since the prior scan. A good parse satisfies three properties, in order: (1) decision (the parse names the right things in the current image), (2) reconstruction (its content is rich enough to regenerate that image), and (3) prediction (its content is rich enough to forecast how the patient state will evolve). Quantitative measurements are derived from this content; they are not predicted alongside it. To test how close the field is to producing such an output, we audit eleven representative systems against the three parsing primitives plus closure. None emits a well-formed parse. Entities are largely solved. Attributes, relationships, and closure remain near-empty. The path forward is not a new architecture. It is a commitment to a richer output, and to training signals that reward it. Segmentation taught models to measure. Parsing asks them to explain.
- Abstract(参考訳): 医療画像研究は10年もの間、1ボクセル当たりのマスクの製作に長けてきました。
マスクはサイズ、体積、位置を教えてくれ、臨床インフラの10年はそれらの出力に依存している。
しかし、放射線学者が書いた報告書には、マスクが表現できるものはほとんどない。
我々は、医用画像解析を中心的な出力として、実体、属性、関係が互いに一致して放出される構造的表現として、医療画像解析を採用するべきであると論じている。
エンティティは、現在または欠落している名前の付いた構造と発見である。
属性はそれらのエンティティを記述し、マージンの規則性、強化パターン、重大度等をキャプチャする。
関係はそれらを結び付け、ある構造が他の構造と相対的に位置し、何と何に似ていて、前回のスキャンで何が変わったかを指定する。
良いパースは、(1)決定(パースは現在の画像に正しいものを命名する)、(2)再構成(イメージを再生するのに十分な内容)、(3)予測(患者の状態がどのように進化するかを予測するのに十分な内容)の3つの特性を満たす。
定量的な測定は、この内容から導かれる。
このような出力を生成するためのフィールドがどの程度近いかをテストするために、3つのパースプリミティブとクロージャに対して11の代表的なシステムを監査する。
整形されたパースを出力する人はいません。
エンティティは大部分が解決されている。
属性、関係、閉鎖は、ほとんど空白のままである。
前進する道は新しいアーキテクチャではありません。
それは、よりリッチなアウトプットへのコミットメントであり、それに報いる信号のトレーニングです。
セグメンテーションは測定するモデルを教えた。
パーシングは彼らに説明を求める。
関連論文リスト
- Sparse Autoencoders for Interpretable Medical Image Representation Learning [1.973259037900468]
FM(Vision foundation model)は、医療画像における最先端のパフォーマンスを実現する。
彼らは、臨床医が尋問や検証をできない抽象的な潜伏表現に情報をエンコードする。
本研究の目的は,不透明なFM画像表現を人間の解釈可能なスパース特徴に置き換えるためのスパースオートエンコーダ(SAE)を検討することである。
論文 参考訳(メタデータ) (2026-03-24T23:54:24Z) - Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space [7.995466888923514]
イメージ可能性と具体性は、視覚空間と意味空間をリンクする心理言語学的特性である。
画像キャプチャデータセットのテキスト自身は、これらの特性を正確に推定するのに十分な信号を提供する。
本稿では,ピークのシャープネスを定量化する,教師なし分布自由度尺度を提案する。
論文 参考訳(メタデータ) (2025-05-29T03:14:11Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - PairAug: What Can Augmented Image-Text Pairs Do for Radiology? [23.042820473327303]
現在の視覚言語による事前学習手法は、主にペア化された画像テキストデータセットに依存している。
医用画像とテキストデータを同時に拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-07T13:40:29Z) - Dual Structure-Aware Image Filterings for Semi-supervised Medical Image Segmentation [11.663088388838073]
半教師付き医用画像分割のための画像レベルのバリエーションとして,新しい二重構造対応画像フィルタリング(DSAIF)を提案する。
構造を意識したツリーベース画像表現において, 画像のフィルタリングを簡略化するコネクテッドフィルタリングにより, 二重コントラスト不変の Max-tree と Min-tree の表現を利用する。
提案したDSAIFを相互に教師付きネットワークに適用することにより、ラベルなし画像上の誤った予測のコンセンサスを減少させる。
論文 参考訳(メタデータ) (2023-12-12T13:44:53Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - A Structure-Aware Relation Network for Thoracic Diseases Detection and
Segmentation [63.76299770460766]
胸部x線画像の自動診断には胸部疾患や異常のインスタンスレベル検出と分割が不可欠である。
Mask R-CNNを拡張した構造認識関係ネットワーク(SAR-Net)を提案する。
ChestX-Detは、インスタンスレベルのアノテーション(ボックスとマスク)を備えた胸部X線データセットです。
論文 参考訳(メタデータ) (2021-04-21T02:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。