論文の概要: Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment
- arxiv url: http://arxiv.org/abs/2109.01949v1
- Date: Sat, 4 Sep 2021 22:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 07:41:00.789346
- Title: Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment
- Title(参考訳): 単語領域アライメントによる胸部X線と放射線診断の併用学習の改善
- Authors: Zhanghexuan Ji, Mohammad Abuzar Shaikh, Dana Moukheiber, Sargur
Srihari, Yifan Peng, Mingchen Gao
- Abstract要約: 本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
- 参考スコア(独自算出の注目度): 9.265044250068554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning provides an opportunity to explore unlabeled chest
X-rays and their associated free-text reports accumulated in clinical routine
without manual supervision. This paper proposes a Joint Image Text
Representation Learning Network (JoImTeRNet) for pre-training on chest X-ray
images and their radiology reports. The model was pre-trained on both the
global image-sentence level and the local image region-word level for
visual-textual matching. Both are bidirectionally constrained on Cross-Entropy
based and ranking-based Triplet Matching Losses. The region-word matching is
calculated using the attention mechanism without direct supervision about their
mapping. The pre-trained multi-modal representation learning paves the way for
downstream tasks concerning image and/or text encoding. We demonstrate the
representation learning quality by cross-modality retrievals and multi-label
classifications on two datasets: OpenI-IU and MIMIC-CXR
- Abstract(参考訳): 自己教師付き学習は、ラベルのない胸部x線とその関連するフリーテキストレポートを手作業で監視することなく臨床ルーチンに蓄積する機会を提供する。
本稿では,胸部x線画像の事前学習のためのジョイント画像テキスト表現学習ネットワーク(joimternet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
どちらもクロスエントロピーベースとランキングベースのトリプルトマッチングロースに双方向的に制約されている。
領域ワードマッチングは、そのマッピングを直接監視することなく、注意機構を用いて計算される。
事前学習されたマルチモーダル表現学習は、画像および/またはテキストエンコーディングに関する下流タスクの道を開く。
我々は2つのデータセット(OpenI-IUとMIMIC-CXR)の相互モダリティ検索と多ラベル分類による表現学習の質を示す。
関連論文リスト
- Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Multi-Label Generalized Zero Shot Learning for the Classification of
Disease in Chest Radiographs [0.7734726150561088]
胸部X線画像の複数の病変を同時に予測できるゼロショット学習ネットワークを提案する。
ネットワークはエンドツーエンドのトレーニングが可能で、オフライン機能抽出器の独立した事前トレーニングは不要である。
我々のネットワークは、リコール、精度、f1スコア、受信機動作特性曲線の領域において、2つの強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-14T09:04:20Z) - Weakly-Supervised Segmentation for Disease Localization in Chest X-Ray
Images [0.0]
医用胸部X線画像のセマンティックセグメンテーションに対する新しいアプローチを提案する。
本手法は肺と胸壁の間の異常な空気量を検出するための胸部X線検査に適用可能である。
論文 参考訳(メタデータ) (2020-07-01T20:48:35Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。