論文の概要: Contextualized Keyword Representations for Multi-modal Retinal Image
Captioning
- arxiv url: http://arxiv.org/abs/2104.12471v1
- Date: Mon, 26 Apr 2021 11:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 22:19:47.373911
- Title: Contextualized Keyword Representations for Multi-modal Retinal Image
Captioning
- Title(参考訳): マルチモーダル網膜画像キャプションのための文脈化キーワード表現
- Authors: Jia-Hong Huang, Ting-Wei Wu, Marcel Worring
- Abstract要約: 従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医用記述を作成する。
新しいエンドツーエンドのディープマルチモーダル医療画像キャプションモデルを提案する。
- 参考スコア(独自算出の注目度): 16.553644007702808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image captioning automatically generates a medical description to
describe the content of a given medical image. A traditional medical image
captioning model creates a medical description only based on a single medical
image input. Hence, an abstract medical description or concept is hard to be
generated based on the traditional approach. Such a method limits the
effectiveness of medical image captioning. Multi-modal medical image captioning
is one of the approaches utilized to address this problem. In multi-modal
medical image captioning, textual input, e.g., expert-defined keywords, is
considered as one of the main drivers of medical description generation. Thus,
encoding the textual input and the medical image effectively are both important
for the task of multi-modal medical image captioning. In this work, a new
end-to-end deep multi-modal medical image captioning model is proposed.
Contextualized keyword representations, textual feature reinforcement, and
masked self-attention are used to develop the proposed approach. Based on the
evaluation of the existing multi-modal medical image captioning dataset,
experimental results show that the proposed model is effective with the
increase of +53.2% in BLEU-avg and +18.6% in CIDEr, compared with the
state-of-the-art method.
- Abstract(参考訳): 医用画像キャプションは、所定の医用画像の内容を記述するための医用記述を自動的に生成する。
従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医療記述を生成する。
したがって、抽象的な医学的記述や概念を従来のアプローチに基づいて生成することは困難である。
このような方法は、医用画像キャプションの有効性を制限する。
マルチモーダル医療画像キャプションはこの問題に対処するために用いられるアプローチの1つである。
マルチモーダルな医用画像キャプションでは、専門家定義のキーワードなど、テキスト入力が医用記述生成の主要な要因の1つであると考えられている。
したがって、マルチモーダルな医用画像キャプションのタスクには、テキスト入力と医用画像の効果的エンコーディングが重要である。
本研究では, エンド・ツー・エンドの医用画像キャプションモデルを提案する。
提案手法の開発には,文脈付きキーワード表現,テキスト特徴強化,マスク付き自己注意を用いた。
既存のマルチモーダル医用画像キャプションデータセットの評価から,提案手法は最先端法と比較してbleu-avg+53.2%,cider+18.6%の増加に有効であることが示された。
関連論文リスト
- Unified Medical Image Pre-training in Language-Guided Common Semantic
Space [41.10756702551621]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning [12.10183458424711]
本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
論文 参考訳(メタデータ) (2023-11-02T05:44:13Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - A Medical Semantic-Assisted Transformer for Radiographic Report
Generation [39.99216295697047]
入力された微細な画像特徴間の高次相互作用を捉えるために,メモリ拡張されたスパースアテンションブロックを提案する。
また,詳細なセマンティック概念を予測し,レポート生成プロセスに組み込むための新しい医療概念生成ネットワーク(MCGN)についても紹介する。
論文 参考訳(メタデータ) (2022-08-22T14:38:19Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Discriminative Cross-Modal Data Augmentation for Medical Imaging
Applications [24.06277026586584]
深層学習法は医用画像解析において大きな成功を収めており、訓練には多くの医用画像が必要である。
データプライバシの懸念と医療アノテータの有効性のため、モデルトレーニングのためにラベル付き医療画像を得るのは非常に困難であることが多い。
本稿では,画像のソースモダリティを目標モダリティに変換する画像対画像変換モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T15:07:00Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。