論文の概要: Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning
- arxiv url: http://arxiv.org/abs/2311.01004v2
- Date: Sat, 30 Dec 2023 17:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:10:59.263134
- Title: Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning
- Title(参考訳): 医用画像キャプションのための混合意味学習によるSam-Guided Enhanced Fine-Grained Encoding
- Authors: Zhenyu Zhang, Benlu Wang, Weijie Liang, Yizhi Li, Xuechen Guo,
Guanhong Wang, Shiyan Li, Gaoang Wang
- Abstract要約: 本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
- 参考スコア(独自算出の注目度): 12.10183458424711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of multimodality and large language models, the deep
learning-based technique for medical image captioning holds the potential to
offer valuable diagnostic recommendations. However, current generic text and
image pre-trained models do not yield satisfactory results when it comes to
describing intricate details within medical images. In this paper, we present a
novel medical image captioning method guided by the segment anything model
(SAM) to enable enhanced encoding with both general and detailed feature
extraction. In addition, our approach employs a distinctive pre-training
strategy with mixed semantic learning to simultaneously capture both the
overall information and finer details within medical images. We demonstrate the
effectiveness of this approach, as it outperforms the pre-trained BLIP2 model
on various evaluation metrics for generating descriptions of medical images.
- Abstract(参考訳): マルチモーダリティと大規模言語モデルの開発により、深層学習に基づく医用画像キャプション技術は、貴重な診断勧告を提供する可能性を秘めている。
しかし、現在の一般的なテキストと画像事前訓練モデルでは、医療画像内の複雑な詳細を記述することには満足できない。
本稿では,S segment Any Model (SAM) でガイドされた新しい医用画像キャプション手法を提案する。
さらに,医用画像における総合的情報と細部情報の両方を同時に捉えるために,意味学習を混合した独特の事前学習戦略を用いる。
医療画像の記述を生成するための各種評価指標において,事前学習したBLIP2モデルよりも優れていることを示す。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - CoBooM: Codebook Guided Bootstrapping for Medical Image Representation Learning [6.838695126692698]
自己教師付き学習は、注釈のないデータを活用することで医療画像分析のための有望なパラダイムとして浮上してきた。
既存のSSLアプローチは、医療画像に固有の高い解剖学的類似性を見落としている。
連続的および離散的な表現を統合することで、自己監督型医用画像学習のための新しいフレームワークであるCoBooMを提案する。
論文 参考訳(メタデータ) (2024-08-08T06:59:32Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Learning Multi-Modal Brain Tumor Segmentation from Privileged
Semi-Paired MRI Images with Curriculum Disentanglement Learning [4.43142018105102]
本稿では,脳腫瘍セグメンテーションのための2段階(イントラモダリティとイントラモダリティ)のカリキュラム・アンタングルメント・ラーニング・フレームワークを提案する。
最初のステップでは、拡張されたモダリティ内スタイルのイメージで再構成とセグメンテーションを行うことを提案する。
第2のステップでは、モデルは、未ペア画像とペア画像の両方の再構成、教師なし/教師なし翻訳、セグメンテーションを共同で行う。
論文 参考訳(メタデータ) (2022-08-26T16:52:43Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Contextualized Keyword Representations for Multi-modal Retinal Image
Captioning [16.553644007702808]
従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医用記述を作成する。
新しいエンドツーエンドのディープマルチモーダル医療画像キャプションモデルを提案する。
論文 参考訳(メタデータ) (2021-04-26T11:08:13Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。