論文の概要: UniXGen: A Unified Vision-Language Model for Multi-View Chest X-ray
Generation and Report Generation
- arxiv url: http://arxiv.org/abs/2302.12172v4
- Date: Tue, 11 Apr 2023 14:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:01:26.258979
- Title: UniXGen: A Unified Vision-Language Model for Multi-View Chest X-ray
Generation and Report Generation
- Title(参考訳): UniXGen:マルチビュー胸部X線生成とレポート生成のための統合ビジョン言語モデル
- Authors: Hyungyung Lee, Da Young Lee, Wonjae Kim, Jin-Hwa Kim, Tackeun Kim,
Jihang Kim, Leonard Sunwoo, Edward Choi
- Abstract要約: 胸部X線とレポート生成の統一モデルであるUnixGenを提案する。
ベクトル量子化法を用いて胸部X線を離散的な視覚トークンに識別する。
所望のビューが利用できない場合には、特定のビューで胸部X線を生成する特別なトークンが有用である。
- 参考スコア(独自算出の注目度): 11.306862291949562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generated synthetic data in medical research can substitute privacy and
security-sensitive data with a large-scale curated dataset, reducing data
collection and annotation costs. As part of this effort, we propose UniXGen, a
unified chest X-ray and report generation model, with the following
contributions. First, we design a unified model for bidirectional chest X-ray
and report generation by adopting a vector quantization method to discretize
chest X-rays into discrete visual tokens and formulating both tasks as sequence
generation tasks. Second, we introduce several special tokens to generate chest
X-rays with specific views that can be useful when the desired views are
unavailable. Furthermore, UniXGen can flexibly take various inputs from single
to multiple views to take advantage of the additional findings available in
other X-ray views. We adopt an efficient transformer for computational and
memory efficiency to handle the long-range input sequence of multi-view chest
X-rays with high resolution and long paragraph reports. In extensive
experiments, we show that our unified model has a synergistic effect on both
generation tasks, as opposed to training only the task-specific models. We also
find that view-specific special tokens can distinguish between different views
and properly generate specific views even if they do not exist in the dataset,
and utilizing multi-view chest X-rays can faithfully capture the abnormal
findings in the additional X-rays. The source code is publicly available at:
https://github.com/ttumyche/UniXGen.
- Abstract(参考訳): 医学研究で生成された合成データは、プライバシとセキュリティに敏感なデータを大規模にキュレートされたデータセットに置き換え、データ収集とアノテーションのコストを削減できる。
この取り組みの一環として,統合胸部X線および報告生成モデルであるUniXGenを提案する。
まず,胸部x線を離散視覚トークンに識別するベクトル量子化法を採用し,両タスクをシーケンス生成タスクとして定式化することにより,双方向胸部x線とレポート生成のための統一モデルを設計する。
第2に,所望のビューが利用できない場合に有用な,特定のビューを持つ胸部x線を生成するための特別なトークンをいくつか紹介する。
さらに、UnixGenは単一のビューから複数のビューへの様々な入力を柔軟に受け取り、他のX線ビューで利用可能な追加の発見を利用することができる。
我々は,多視点胸部X線の長距離入力シーケンスを高分解能および長文レポートで処理するために,計算およびメモリ効率の効率的な変換器を採用する。
広範な実験により,本モデルがタスク固有モデルのみを訓練するよりも,両生成タスクに相乗効果があることが確認された。
また、ビュー固有の特別なトークンは、データセットに存在しない場合でも、異なるビューを区別し、特定のビューを適切に生成することができ、マルチビュー胸部X線を利用して、追加のX線による異常な発見を忠実に捉えることができる。
ソースコードは、https://github.com/ttumyche/UniXGenで公開されている。
関連論文リスト
- How Can We Tame the Long-Tail of Chest X-ray Datasets? [0.0]
胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
非常に一般的に観測されており、CXRデータセットで十分に表現されているものはほとんどない。
現在のモデルでは、稀ではあるが高い意味を持つラベルの独立した差別的特徴を学習することは困難である。
論文 参考訳(メタデータ) (2023-09-08T12:28:40Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Visualizing chest X-ray dataset biases using GANs [8.61315908717562]
近年の研究では、様々な胸部X線データセットの画像には、人種や性別といった保護された人口特性と強く相関する視覚的特徴が含まれていることが示されている。
これらの要因のいくつかは、臨床予測のために下流アルゴリズムによって利用される可能性があるため、この発見は公正性の問題を提起する。
本研究では,2つの層群に属するX線に最も異なる特徴を可視化するために,GAN(Generative Adversarial Network)を用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-29T01:39:08Z) - Image Synthesis with Disentangled Attributes for Chest X-Ray Nodule
Augmentation and Detection [52.93342510469636]
肺癌早期検診では胸部X線像の肺結節検出が一般的である。
ディープラーニングに基づくコンピュータ支援診断(CAD)システムは、CXRの結節スクリーニングのために放射線科医をサポートすることができる。
このようなデータセットの可用性を損なうため,データ拡張のために肺結節合成法を提案する。
論文 参考訳(メタデータ) (2022-07-19T16:38:48Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文 参考訳(メタデータ) (2020-07-10T20:19:01Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。