論文の概要: MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks
- arxiv url: http://arxiv.org/abs/2407.03919v2
- Date: Mon, 22 Jul 2024 07:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:42:21.539942
- Title: MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks
- Title(参考訳): MedRAT:補助的タスクによる不正な医療報告生成
- Authors: Elad Hirsch, Gefen Dawidowicz, Ayellet Tal,
- Abstract要約: 本稿では、2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。
我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 11.190146577567548
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Medical report generation from X-ray images is a challenging task, particularly in an unpaired setting where paired image-report data is unavailable for training. To address this challenge, we propose a novel model that leverages the available information in two distinct datasets, one comprising reports and the other consisting of images. The core idea of our model revolves around the notion that combining auto-encoding report generation with multi-modal (report-image) alignment can offer a solution. However, the challenge persists regarding how to achieve this alignment when pair correspondence is absent. Our proposed solution involves the use of auxiliary tasks, particularly contrastive learning and classification, to position related images and reports in close proximity to each other. This approach differs from previous methods that rely on pre-processing steps, such as using external information stored in a knowledge graph. Our model, named MedRAT, surpasses previous state-of-the-art methods, demonstrating the feasibility of generating comprehensive medical reports without the need for paired data or external tools.
- Abstract(参考訳): X線画像から医用レポートを生成することは、特にペア化された画像レポートデータがトレーニングに利用できない不適切な環境では難しい課題である。
この課題に対処するために、我々は2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。
私たちのモデルの中核的な考え方は、自動エンコードレポート生成とマルチモーダル(レポートイメージ)アライメントを組み合わせることでソリューションを提供する、という考えに基づいています。
しかし、ペア対応が欠如している場合には、このアライメントをどのように達成するかという課題が続いている。
提案手法は,特にコントラスト学習と分類の補助的タスクを用いて,関連する画像や報告を互いに近接して配置することを含む。
このアプローチは、知識グラフに格納された外部情報を使用するなど、前処理ステップに依存する従来の方法とは異なる。
我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越し、ペアデータや外部ツールを必要とせずに総合的な医療報告を作成可能であることを示す。
関連論文リスト
- PairAug: What Can Augmented Image-Text Pairs Do for Radiology? [23.042820473327303]
現在の視覚言語による事前学習手法は、主にペア化された画像テキストデータセットに依存している。
医用画像とテキストデータを同時に拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-07T13:40:29Z) - MedCycle: Unpaired Medical Report Generation via Cycle-Consistency [11.190146577567548]
一貫性のあるラベリングスキーマを必要としない革新的なアプローチを導入する。
このアプローチは、画像埋め込みをレポート埋め込みに変換するサイクル一貫性マッピング関数に基づいている。
胸部X線所見の発生は、最先端の結果よりも優れており、言語と臨床の両方の指標の改善が示されている。
論文 参考訳(メタデータ) (2024-03-20T09:40:11Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Style-Aware Radiology Report Generation with RadGraph and Few-Shot
Prompting [5.596515201054671]
放射線学レポート生成のための2段階のアプローチを提案する。
まず,画像から内容を取り出す。次に,抽出した内容を,特定の放射線技師のスタイルにマッチしたレポートに言語化する。
論文 参考訳(メタデータ) (2023-10-26T23:06:38Z) - Automatic Radiology Report Generation by Learning with Increasingly Hard
Negatives [23.670280341513795]
本稿では,識別画像を学習し,特徴を報告する新しい枠組みを提案する。
それらが最も近い仲間、すなわち強陰性と区別される。
既存の医療報告生成モデルを簡単に改善するためのプラグインとして機能する。
論文 参考訳(メタデータ) (2023-05-11T23:12:13Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - A Medical Semantic-Assisted Transformer for Radiographic Report
Generation [39.99216295697047]
入力された微細な画像特徴間の高次相互作用を捉えるために,メモリ拡張されたスパースアテンションブロックを提案する。
また,詳細なセマンティック概念を予測し,レポート生成プロセスに組み込むための新しい医療概念生成ネットワーク(MCGN)についても紹介する。
論文 参考訳(メタデータ) (2022-08-22T14:38:19Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。