論文の概要: Longer Version for "Deep Context-Encoding Network for Retinal Image
Captioning"
- arxiv url: http://arxiv.org/abs/2105.14538v1
- Date: Sun, 30 May 2021 13:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 12:16:09.278392
- Title: Longer Version for "Deep Context-Encoding Network for Retinal Image
Captioning"
- Title(参考訳): 網膜画像キャプションのためのディープコンテキストエンコーディングネットワーク」の長バージョン
- Authors: Jia-Hong Huang, Ting-Wei Wu, Chao-Han Huck Yang, Marcel Worring
- Abstract要約: 網膜画像の医療報告を自動的に生成する新しいコンテキスト駆動型符号化ネットワークを提案する。
提案するモデルは,主にマルチモーダル入力エンコーダと融合機能デコーダから構成される。
- 参考スコア(独自算出の注目度): 21.558908631487405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating medical reports for retinal images is one of the
promising ways to help ophthalmologists reduce their workload and improve work
efficiency. In this work, we propose a new context-driven encoding network to
automatically generate medical reports for retinal images. The proposed model
is mainly composed of a multi-modal input encoder and a fused-feature decoder.
Our experimental results show that our proposed method is capable of
effectively leveraging the interactive information between the input image and
context, i.e., keywords in our case. The proposed method creates more accurate
and meaningful reports for retinal images than baseline models and achieves
state-of-the-art performance. This performance is shown in several commonly
used metrics for the medical report generation task: BLEU-avg (+16%), CIDEr
(+10.2%), and ROUGE (+8.6%).
- Abstract(参考訳): 網膜画像の医療レポートを自動的に生成することは、眼科医が作業負荷を減らし、作業効率を改善するための有望な方法の1つだ。
本研究では,網膜画像の医用レポートを自動的に生成するコンテキスト駆動エンコーディングネットワークを提案する。
提案するモデルは,主にマルチモーダル入力エンコーダと融合機能デコーダから構成される。
実験の結果,提案手法は入力画像とコンテキスト間の対話的情報,すなわちキーワードを効果的に活用できることがわかった。
提案手法は、ベースラインモデルよりも精度が高く有意義な網膜画像のレポートを作成し、最先端の性能を実現する。
この性能は、BLEU-avg (+16%)、CIDEr (+10.2%)、ROUGE (+8.6%)といった医療レポート生成タスクでよく使われる指標で示されている。
関連論文リスト
- Predicting Stroke through Retinal Graphs and Multimodal Self-supervised Learning [0.46835339362676565]
脳卒中の早期発見は介入に不可欠であり、信頼できるモデルを必要とする。
臨床情報とともに効率的な網膜像表現法を提案し,心血管の健康状態の包括的把握を試みた。
論文 参考訳(メタデータ) (2024-11-08T14:40:56Z) - LMBF-Net: A Lightweight Multipath Bidirectional Focal Attention Network for Multifeatures Segmentation [15.091476025563528]
網膜疾患は、早期に診断や治療を受けなければ、両眼で不可逆的な視力喪失を引き起こす可能性がある。
多くのラベルや属性で網膜画像をセグメント化するための現在のディープラーニング技術は、検出精度と一般性に乏しい。
本稿では,多機能セグメンテーションのためのマルチパス畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-03T07:37:09Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Multi-modal Medical Neurological Image Fusion using Wavelet Pooled Edge
Preserving Autoencoder [3.3828292731430545]
本稿では,エッジ保存型高密度オートエンコーダネットワークに基づくマルチモーダル医用画像に対するエンドツーエンド非教師付き核融合モデルを提案する。
提案モデルでは,特徴マップのウェーブレット分解に基づくアテンションプールを用いて特徴抽出を改善する。
提案モデルでは,ソース画像の強度分布の把握を支援する様々な医用画像ペアを訓練する。
論文 参考訳(メタデータ) (2023-10-18T11:59:35Z) - INCEPTNET: Precise And Early Disease Detection Application For Medical
Images Analyses [0.5439020425818999]
本稿では,医療画像の早期検出とセグメント化のための新しいディープニューラルネットワークInceptNetを提案する。
Fast InceptNetは、著名なUnetアーキテクチャによって形成され、Inceptionモジュールのパワーを、高速で費用対効果のあるものにします。
この改良は、小さな構造を持つ画像においてより重要であった。
論文 参考訳(メタデータ) (2023-09-05T11:39:29Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - A Medical Semantic-Assisted Transformer for Radiographic Report
Generation [39.99216295697047]
入力された微細な画像特徴間の高次相互作用を捉えるために,メモリ拡張されたスパースアテンションブロックを提案する。
また,詳細なセマンティック概念を予測し,レポート生成プロセスに組み込むための新しい医療概念生成ネットワーク(MCGN)についても紹介する。
論文 参考訳(メタデータ) (2022-08-22T14:38:19Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。