論文の概要: Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement
- arxiv url: http://arxiv.org/abs/2401.11421v2
- Date: Wed, 4 Sep 2024 15:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:11:38.717425
- Title: Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement
- Title(参考訳): キーセマンティック知識を用いた視覚言語基盤モデルの強化 : レポート改善に着目して
- Authors: Weijian Huang, Cheng Li, Hao Yang, Jiarun Liu, Yong Liang, Hairong Zheng, Shanshan Wang,
- Abstract要約: 本稿では,キーセマンティックな知識強調レポート改善手法を提案することで,新しい視覚言語表現学習フレームワークを開発する。
我々のフレームワークは、微調整とゼロショットの両方において、最先端の7つの手法を超越している。
- 参考スコア(独自算出の注目度): 9.347971487478038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision-language representation learning has made remarkable advancements in building up medical foundation models, holding immense potential for transforming the landscape of clinical research and medical care. The underlying hypothesis is that the rich knowledge embedded in radiology reports can effectively assist and guide the learning process, reducing the need for additional labels. However, these reports tend to be complex and sometimes even consist of redundant descriptions that make the representation learning too challenging to capture the key semantic information. This paper develops a novel iterative vision-language representation learning framework by proposing a key semantic knowledge-emphasized report refinement method. Particularly, raw radiology reports are refined to highlight the key information according to a constructed clinical dictionary and two model-optimized knowledge-enhancement metrics. The iterative framework is designed to progressively learn, starting from gaining a general understanding of the patient's condition based on raw reports and gradually refines and extracts critical information essential to the fine-grained analysis tasks. The effectiveness of the proposed framework is validated on various downstream medical image analysis tasks, including disease classification, region-of-interest segmentation, and phrase grounding. Our framework surpasses seven state-of-the-art methods in both fine-tuning and zero-shot settings, demonstrating its encouraging potential for different clinical applications.
- Abstract(参考訳): 近年、視覚言語表現学習は医療基盤モデルの構築において顕著な進歩を遂げており、臨床研究や医療の景観を変革する大きな可能性を秘めている。
根拠となる仮説は、放射線学レポートに埋め込まれた豊富な知識は、学習プロセスを効果的に支援し、ガイドし、追加のラベルの必要性を減らすことができるというものである。
しかし、これらのレポートは複雑で、時には、表現学習が重要セマンティック情報を取得するのが難しすぎるような冗長な記述で構成されている。
本稿では,キーセマンティックな知識強調レポート改善手法を提案することによって,新たな視覚言語表現学習フレームワークを開発する。
特に、構築された臨床辞書と2つのモデル最適化知識強調指標に基づいて、重要な情報をハイライトするために、生の放射線学レポートを精査する。
反復的枠組みは、患者の症状を生の報告に基づいて総合的に理解することから始まり、よりきめ細かな分析タスクに不可欠な重要な情報を徐々に洗練し、抽出することから、徐々に学習するように設計されている。
本手法の有効性は, 疾患分類, 関心領域分割, 句接地など, 下流医療画像解析の課題に対して検証された。
我々のフレームワークは、微調整とゼロショットの両方において、7つの最先端の手法を超越し、異なる臨床応用の可能性を示している。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - RadBARTsum: Domain Specific Adaption of Denoising Sequence-to-Sequence Models for Abstractive Radiology Report Summarization [1.8450534779202723]
本研究では,抽象的放射線学レポート要約のためのドメイン固有かつ容易なBARTモデルの適応であるRadBARTsumを提案する。
本手法は,1)生物医学領域の知識学習を改善するための新しい実体マスキング戦略を用いて,放射線学報告の大規模コーパス上でBARTモデルを再学習すること,2)印象区間を予測するためにFindersとバックグラウンドセクションを用いて要約タスクのモデルを微調整すること,の2つの段階を含む。
論文 参考訳(メタデータ) (2024-06-05T08:43:11Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Knowledge Boosting: Rethinking Medical Contrastive Vision-Language
Pre-Training [6.582001681307021]
知識ブースティング・コントラスト・ビジョン・ランゲージ事前学習フレームワーク(KoBo)を提案する。
KoBoは、臨床知識を視覚言語意味一貫性の学習に統合する。
分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証する実験を行った。
論文 参考訳(メタデータ) (2023-07-14T09:38:22Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - A Practical Approach towards Causality Mining in Clinical Text using
Active Transfer Learning [2.6125458645126907]
因果関係マイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。
この研究は、臨床テキストを因果知識に変換するフレームワークを作成することを目的としている。
論文 参考訳(メタデータ) (2020-12-10T06:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。