論文の概要: Enhancing the vision-language foundation model with key semantic
knowledge-emphasized report refinement
- arxiv url: http://arxiv.org/abs/2401.11421v1
- Date: Sun, 21 Jan 2024 07:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:35:11.960988
- Title: Enhancing the vision-language foundation model with key semantic
knowledge-emphasized report refinement
- Title(参考訳): セマンティクス知識強調レポートリファインメントによる視覚言語基礎モデルの拡張
- Authors: Cheng Li, Weijian Huang, Hao Yang, Jiarun Liu, Shanshan Wang
- Abstract要約: 本稿では,キーセマンティックな知識強調レポート改善手法を提案することで,新しい視覚言語表現学習フレームワークを開発する。
我々のフレームワークは、微調整とゼロショットの両方において、最先端の7つの手法を超越している。
- 参考スコア(独自算出の注目度): 8.717599327516822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision-language representation learning has made remarkable
advancements in building up medical foundation models, holding immense
potential for transforming the landscape of clinical research and medical care.
The underlying hypothesis is that the rich knowledge embedded in radiology
reports can effectively assist and guide the learning process, reducing the
need for additional labels. However, these reports tend to be complex and
sometimes even consist of redundant descriptions that make the representation
learning too challenging to capture the key semantic information. This paper
develops a novel iterative vision-language representation learning framework by
proposing a key semantic knowledge-emphasized report refinement method.
Particularly, raw radiology reports are refined to highlight the key
information according to a constructed clinical dictionary and two
model-optimized knowledge-enhancement metrics. The iterative framework is
designed to progressively learn, starting from gaining a general understanding
of the patient's condition based on raw reports and gradually refines and
extracts critical information essential to the fine-grained analysis tasks. The
effectiveness of the proposed framework is validated on various downstream
medical image analysis tasks, including disease classification,
region-of-interest segmentation, and phrase grounding. Our framework surpasses
seven state-of-the-art methods in both fine-tuning and zero-shot settings,
demonstrating its encouraging potential for different clinical applications.
- Abstract(参考訳): 近年,視覚言語表現学習は医療基礎モデルの構築において著しく進歩し,臨床研究や医療の展望を変革する可能性を秘めている。
根拠となる仮説は、放射線学レポートに埋め込まれた豊富な知識は、学習プロセスを効果的に支援し、ガイドし、追加ラベルの必要性を減らすことができるというものである。
しかし、これらの報告は複雑になりがちで、時には表現学習が重要な意味情報を取り込むのを難しくする冗長な記述から成り立っている。
本稿では,新しい反復的視覚言語表現学習フレームワークを開発し,重要な意味的知識を強調したレポートリファインメント手法を提案する。
特に、構築された臨床辞書と2つのモデルに最適化された知識エンハンスメント指標に従って重要な情報を強調するために、生放射線学レポートを洗練する。
この反復的なフレームワークは、生のレポートに基づいて患者の状態の一般的な理解を得ることから始まり、細かな分析タスクに必要な重要な情報を徐々に洗練し、抽出する、段階的に学習するように設計されている。
本手法の有効性は, 疾患分類, 関心領域分割, 句接地など, 下流医療画像解析の課題に対して検証された。
われわれのフレームワークは、微調整とゼロショット設定の両方で7つの最先端の方法を超えており、異なる臨床応用の可能性を示している。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - RadBARTsum: Domain Specific Adaption of Denoising Sequence-to-Sequence Models for Abstractive Radiology Report Summarization [1.8450534779202723]
本研究では,抽象的放射線学レポート要約のためのドメイン固有かつ容易なBARTモデルの適応であるRadBARTsumを提案する。
本手法は,1)生物医学領域の知識学習を改善するための新しい実体マスキング戦略を用いて,放射線学報告の大規模コーパス上でBARTモデルを再学習すること,2)印象区間を予測するためにFindersとバックグラウンドセクションを用いて要約タスクのモデルを微調整すること,の2つの段階を含む。
論文 参考訳(メタデータ) (2024-06-05T08:43:11Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Knowledge Boosting: Rethinking Medical Contrastive Vision-Language
Pre-Training [6.582001681307021]
知識ブースティング・コントラスト・ビジョン・ランゲージ事前学習フレームワーク(KoBo)を提案する。
KoBoは、臨床知識を視覚言語意味一貫性の学習に統合する。
分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証する実験を行った。
論文 参考訳(メタデータ) (2023-07-14T09:38:22Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - A Practical Approach towards Causality Mining in Clinical Text using
Active Transfer Learning [2.6125458645126907]
因果関係マイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。
この研究は、臨床テキストを因果知識に変換するフレームワークを作成することを目的としている。
論文 参考訳(メタデータ) (2020-12-10T06:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。