論文の概要: Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation
- arxiv url: http://arxiv.org/abs/2206.01988v1
- Date: Sat, 4 Jun 2022 13:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:23:05.932395
- Title: Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation
- Title(参考訳): 眼科報告用クロスモーダル・クリニカルグラフ変換器
- Authors: Mingjie Li, Wenjia Cai, Karin Verspoor, Shirui Pan, Xiaodan Liang,
Xiaojun Chang
- Abstract要約: 眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 116.87918100031153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic generation of ophthalmic reports using data-driven neural networks
has great potential in clinical practice. When writing a report,
ophthalmologists make inferences with prior clinical knowledge. This knowledge
has been neglected in prior medical report generation methods. To endow models
with the capability of incorporating expert knowledge, we propose a Cross-modal
clinical Graph Transformer (CGT) for ophthalmic report generation (ORG), in
which clinical relation triples are injected into the visual features as prior
knowledge to drive the decoding procedure. However, two major common Knowledge
Noise (KN) issues may affect models' effectiveness. 1) Existing general
biomedical knowledge bases such as the UMLS may not align meaningfully to the
specific context and language of the report, limiting their utility for
knowledge injection. 2) Incorporating too much knowledge may divert the visual
features from their correct meaning. To overcome these limitations, we design
an automatic information extraction scheme based on natural language processing
to obtain clinical entities and relations directly from in-domain training
reports. Given a set of ophthalmic images, our CGT first restores a sub-graph
from the clinical graph and injects the restored triples into visual features.
Then visible matrix is employed during the encoding procedure to limit the
impact of knowledge. Finally, reports are predicted by the encoded cross-modal
features via a Transformer decoder. Extensive experiments on the large-scale
FFA-IR benchmark demonstrate that the proposed CGT is able to outperform
previous benchmark methods and achieve state-of-the-art performances.
- Abstract(参考訳): データ駆動型ニューラルネットワークによる眼科報告の自動生成は臨床実践において大きな可能性を秘めている。
レポートを書く際、眼科医は以前の臨床知識と推測する。
この知識は、以前の医療報告生成手法では無視されている。
専門知識を取り入れたモデルを実現するため,眼科報告生成(ORG)のためのクロスモーダルな臨床グラフトランスフォーマ (CGT) を提案する。
しかし、2つの主要な共通知識ノイズ(kn)問題はモデルの有効性に影響する可能性がある。
1) umlのような既存の一般的な生物医学的知識ベースは、報告書の特定の文脈や言語に意味を持たず、知識注入の有用性を制限できる。
2) 知識の多さは,視覚特徴をその正しい意味から逸脱させる可能性がある。
これらの限界を克服するために,自然言語処理に基づく自動情報抽出スキームを設計,ドメイン内トレーニングレポートから直接臨床実体と関係を得る。
眼科画像のセットを与えられたCGTは、まず臨床グラフからサブグラフを復元し、回復したトリプルを視覚的特徴に注入する。
次に、知識の影響を制限するために、符号化手順中に可視行列を用いる。
最後に、レポートはTransformerデコーダを介してエンコードされたクロスモーダル機能によって予測される。
大規模FFA-IRベンチマークの大規模な実験により、提案したCGTは従来のベンチマーク手法より優れ、最先端の性能を達成できることが示された。
関連論文リスト
- Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Enhanced Knowledge Injection for Radiology Report Generation [21.937372129714884]
本稿では,異なる種類の知識を抽出するために2つの分野を利用する知識注入フレームワークを提案する。
この微細でよく構造化された知識を現在の画像と統合することにより、マルチソースの知識の獲得を活用して、最終的により正確なレポート生成を可能にします。
論文 参考訳(メタデータ) (2023-11-01T09:50:55Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Knowledge Graph Embeddings for Multi-Lingual Structured Representations
of Radiology Reports [40.606143019674654]
本稿では,新しい軽量グラフベースの埋め込み手法,特に放射線学レポートのキャタリングについて紹介する。
報告書の構造と構成を考慮し、報告書の医療用語を接続する。
本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。
論文 参考訳(メタデータ) (2023-09-02T11:46:41Z) - KiUT: Knowledge-injected U-Transformer for Radiology Report Generation [10.139767157037829]
X線画像から臨床的正確で一貫性のある段落を自動的に生成することを目的とする。
知識注入型U-Transformer (KiUT) を提案する。
論文 参考訳(メタデータ) (2023-06-20T07:27:28Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。