Fugu-MT 論文翻訳(概要): GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning

論文の概要: GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning

arxiv url: http://arxiv.org/abs/2412.17251v1
Date: Mon, 23 Dec 2024 03:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.317452
Title: GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning
Title（参考訳）: GCS-M3VLT: 網膜画像キャプチャのためのガイド付きコンテキスト自己注意型マルチモーダル医用ビジョン言語変換器
Authors: Teja Krishna Cherukuri, Nagur Shareef Shaik, Jyostna Devi Bodapati, Dong Hye Ye,
Abstract要約: 本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。 DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
参考スコア（独自算出の注目度）: 3.5948668755510136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retinal image analysis is crucial for diagnosing and treating eye diseases, yet generating accurate medical reports from images remains challenging due to variability in image quality and pathology, especially with limited labeled data. Previous Transformer-based models struggled to integrate visual and textual information under limited supervision. In response, we propose a novel vision-language model for retinal image captioning that combines visual and textual features through a guided context self-attention mechanism. This approach captures both intricate details and the global clinical context, even in data-scarce scenarios. Extensive experiments on the DeepEyeNet dataset demonstrate a 0.023 BLEU@4 improvement, along with significant qualitative advancements, highlighting the effectiveness of our model in generating comprehensive medical captions.
Abstract（参考訳）: 網膜画像解析は眼疾患の診断と治療に不可欠であるが、画像の質や病理の多様性、特に限られたラベル付きデータにより、画像から正確な医療報告を生成することは困難である。以前のTransformerベースのモデルは、限られた監督の下で視覚情報とテキスト情報を統合するのに苦労した。そこで本研究では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。このアプローチは、データ共有シナリオにおいても、複雑な詳細とグローバルな臨床コンテキストの両方をキャプチャする。 DeepEyeNetデータセットの大規模な実験は、0.023 BLEU@4の改善と重要な質的な進歩を示し、包括的医療キャプションの生成における我々のモデルの有効性を強調した。

関連論文リスト

On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文参考訳（メタデータ） (2025-07-31T21:35:52Z)
Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-07-29T13:31:24Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images [0.31077024712075796]
皮膚科拡散変換器(DermDiT) 本稿では,視覚言語モデルとマルチモーダルテキスト画像学習を用いて生成したテキストプロンプトを利用して,新たな皮膚画像を生成する,新しい生成AIベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-02T15:44:12Z)
RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。本手法の有効性を医用撮像皮膚データセットに示し, 生成した画像から生成品質が向上し, 微調整された安定拡散に対するプロンプトとの整合性が向上することを示した。
論文参考訳（メタデータ） (2025-03-20T01:51:05Z)
M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation [1.8789068567093286]
Multi-Modal Medical Transformer (M3T)は、視覚表現と診断キーワードを統合する新しいディープラーニングアーキテクチャである。 DeepEyeNetデータセットに関する実験的研究は、眼科医の基準を満たす上でのM3Tの成功を検証する。
論文参考訳（メタデータ） (2024-06-19T00:46:48Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。これは、大きな言語モデルと医療専門家に相談することで達成される。我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文参考訳（メタデータ） (2024-03-12T13:18:22Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Text-guided Foundation Model Adaptation for Pathological Image Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。 CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文参考訳（メタデータ） (2023-07-27T14:44:56Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。本稿では,自動レポート生成のための変分トピック推論を提案する。
論文参考訳（メタデータ） (2021-07-15T13:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。