Fugu-MT 論文翻訳(概要): Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning

論文の概要: Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning

arxiv url: http://arxiv.org/abs/2311.01004v2
Date: Sat, 30 Dec 2023 17:17:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 01:10:59.263134
Title: Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning
Title（参考訳）: 医用画像キャプションのための混合意味学習によるSam-Guided Enhanced Fine-Grained Encoding
Authors: Zhenyu Zhang, Benlu Wang, Weijie Liang, Yizhi Li, Xuechen Guo, Guanhong Wang, Shiyan Li, Gaoang Wang
Abstract要約: 本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
参考スコア（独自算出の注目度）: 12.10183458424711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the development of multimodality and large language models, the deep learning-based technique for medical image captioning holds the potential to offer valuable diagnostic recommendations. However, current generic text and image pre-trained models do not yield satisfactory results when it comes to describing intricate details within medical images. In this paper, we present a novel medical image captioning method guided by the segment anything model (SAM) to enable enhanced encoding with both general and detailed feature extraction. In addition, our approach employs a distinctive pre-training strategy with mixed semantic learning to simultaneously capture both the overall information and finer details within medical images. We demonstrate the effectiveness of this approach, as it outperforms the pre-trained BLIP2 model on various evaluation metrics for generating descriptions of medical images.
Abstract（参考訳）: マルチモーダリティと大規模言語モデルの開発により、深層学習に基づく医用画像キャプション技術は、貴重な診断勧告を提供する可能性を秘めている。しかし、現在の一般的なテキストと画像事前訓練モデルでは、医療画像内の複雑な詳細を記述することには満足できない。本稿では,S segment Any Model (SAM) でガイドされた新しい医用画像キャプション手法を提案する。さらに,医用画像における総合的情報と細部情報の両方を同時に捉えるために,意味学習を混合した独特の事前学習戦略を用いる。医療画像の記述を生成するための各種評価指標において,事前学習したBLIP2モデルよりも優れていることを示す。

関連論文リスト

SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis [11.356721356096564]
医用先行知識を融合プロセスに組み込んだ,意味誘導型医用画像融合手法を提案する。融合画像から診断報告を生成し,医療情報の保存性を評価する。実験結果から, 定性評価と定量的評価の両方において, 提案手法が優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-05-18T06:15:00Z)
Improving the generalization of deep learning models in the segmentation of mammography images [0.33748750222488655]
マンモグラフィー画像におけるランドマーク構造のセグメンテーションは、がんリスクの評価における医療評価に役立つ。深層学習に基づくセグメンテーションのためのトレーニングデータ強化を目的とした,データ中心型戦略のシリーズを紹介する。提案手法では,アノテーションによる画像強度操作とスタイル転送によりトレーニングサンプルを増強する。
論文参考訳（メタデータ） (2025-03-28T00:11:00Z)
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI [6.714491893348051]
画像とそれに対応する放射線学的所見の対比学習を用いて, マルチモデル頭部MRIの基礎モデルを構築することを提案する。提案した類似性強化コントラスト言語画像事前学習(SeLIP)は,より有用な特徴を効果的に抽出することができる。
論文参考訳（メタデータ） (2025-03-25T16:09:45Z)
RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。 RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文参考訳（メタデータ） (2025-03-06T17:43:03Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
CoBooM: Codebook Guided Bootstrapping for Medical Image Representation Learning [6.838695126692698]
自己教師付き学習は、注釈のないデータを活用することで医療画像分析のための有望なパラダイムとして浮上してきた。既存のSSLアプローチは、医療画像に固有の高い解剖学的類似性を見落としている。連続的および離散的な表現を統合することで、自己監督型医用画像学習のための新しいフレームワークであるCoBooMを提案する。
論文参考訳（メタデータ） (2024-08-08T06:59:32Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。 UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。 10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文参考訳（メタデータ） (2023-11-24T22:01:12Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Domain Generalization for Mammographic Image Analysis with Contrastive Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文参考訳（メタデータ） (2023-04-20T11:40:21Z)
Learning Multi-Modal Brain Tumor Segmentation from Privileged Semi-Paired MRI Images with Curriculum Disentanglement Learning [4.43142018105102]
本稿では,脳腫瘍セグメンテーションのための2段階(イントラモダリティとイントラモダリティ)のカリキュラム・アンタングルメント・ラーニング・フレームワークを提案する。最初のステップでは、拡張されたモダリティ内スタイルのイメージで再構成とセグメンテーションを行うことを提案する。第2のステップでは、モデルは、未ペア画像とペア画像の両方の再構成、教師なし/教師なし翻訳、セグメンテーションを共同で行う。
論文参考訳（メタデータ） (2022-08-26T16:52:43Z)
Semantic segmentation of multispectral photoacoustic images using deep learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-05-20T09:33:55Z)
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning [16.553644007702808]
従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医用記述を作成する。新しいエンドツーエンドのディープマルチモーダル医療画像キャプションモデルを提案する。
論文参考訳（メタデータ） (2021-04-26T11:08:13Z)
Contrastive Learning of Medical Visual Representations from Paired Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文参考訳（メタデータ） (2020-10-02T02:10:18Z)
Weakly supervised multiple instance learning histopathological tumor segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。トレーニングモデルに複数のインスタンス学習スキームを利用する。提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文参考訳（メタデータ） (2020-04-10T13:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。