論文の概要: Weakly supervised one-stage vision and language disease detection using
large scale pneumonia and pneumothorax studies
- arxiv url: http://arxiv.org/abs/2007.15778v1
- Date: Fri, 31 Jul 2020 00:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:20:34.106171
- Title: Weakly supervised one-stage vision and language disease detection using
large scale pneumonia and pneumothorax studies
- Title(参考訳): 大規模肺炎と気胸を用いた弱監督型一段階視覚と言語疾患の検出
- Authors: Leo K. Tam, Xiaosong Wang, Evrim Turkbey, Kevin Lu, Yuhong Wen, and
Daguang Xu
- Abstract要約: 我々は,MIMIC-CXRデータセット上に,新しい放射線学者のペア境界ボックスと自然言語アノテーションを提案する。
また、弱教師付きトランスフォーマー層選択型ワンステージデュアルヘッド検出アーキテクチャ(LITERATI)を提案する。
アーキテクチャの変更は、3つの障害に対処する - 教師付き視覚と言語検出を弱教師付きで実装し、臨床参照表現自然言語情報を取り入れ、マップ確率の高い忠実度検出を生成する。
- 参考スコア(独自算出の注目度): 9.34633748515622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting clinically relevant objects in medical images is a challenge
despite large datasets due to the lack of detailed labels. To address the label
issue, we utilize the scene-level labels with a detection architecture that
incorporates natural language information. We present a challenging new set of
radiologist paired bounding box and natural language annotations on the
publicly available MIMIC-CXR dataset especially focussed on pneumonia and
pneumothorax. Along with the dataset, we present a joint vision language weakly
supervised transformer layer-selected one-stage dual head detection
architecture (LITERATI) alongside strong baseline comparisons with class
activation mapping (CAM), gradient CAM, and relevant implementations on the NIH
ChestXray-14 and MIMIC-CXR dataset. Borrowing from advances in vision language
architectures, the LITERATI method demonstrates joint image and referring
expression (objects localized in the image using natural language) input for
detection that scales in a purely weakly supervised fashion. The architectural
modifications address three obstacles -- implementing a supervised vision and
language detection method in a weakly supervised fashion, incorporating
clinical referring expression natural language information, and generating high
fidelity detections with map probabilities. Nevertheless, the challenging
clinical nature of the radiologist annotations including subtle references,
multi-instance specifications, and relatively verbose underlying medical
reports, ensures the vision language detection task at scale remains
stimulating for future investigation.
- Abstract(参考訳): 詳細なラベルがないため、大きなデータセットにもかかわらず、医療画像における臨床関連オブジェクトの検出は困難である。
ラベル問題に対処するために、自然言語情報を含む検出アーキテクチャを用いてシーンレベルのラベルを利用する。
特に肺炎と気胸に焦点をあてたMIMIC-CXRデータセットに,放射線技師によるペアリングボックスと自然言語アノテーションを新たに導入した。
このデータセットと合わせて,クラスアクティベーションマッピング(CAM)や勾配CAM,およびNIH ChestXray-14およびMIMIC-CXRデータセットに対する関連する実装との強力なベースライン比較とともに,弱教師付きトランスフォーマー層選択型ワンステージデュアルヘッド検出アーキテクチャ(LITERATI)を提案する。
視覚言語アーキテクチャの進歩から借用したliterati法は、純粋に監督された方法でスケールする検出のために、画像と参照表現(自然言語で画像にローカライズされたオブジェクト)の入力を示す。
アーキテクチャの変更は、3つの障害に対処する - 教師付き視覚と言語検出を弱教師付きで実装し、臨床参照表現自然言語情報を取り入れ、マップ確率の高い忠実度検出を生成する。
それにもかかわらず、微妙な参照、マルチインスタンス仕様、比較的冗長な医療報告を含む放射線医学的アノテーションの難易度は、スケールでの視覚言語検出タスクを将来的な調査に刺激し続ける。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - Visual Prompt Engineering for Medical Vision Language Models in Radiology [0.1636269503300992]
ビジョン言語モデル(VLP)は、ゼロショットパフォーマンスの分類を改善するために学習を活用することで、有望なソリューションを提供する。
本稿では,視覚的プロンプト工学の可能性を探究し,重要な領域への潜在的関心を高める。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。