Fugu-MT 論文翻訳(概要): Improving Medical Multi-modal Contrastive Learning with Expert Annotations

論文の概要: Improving Medical Multi-modal Contrastive Learning with Expert Annotations

arxiv url: http://arxiv.org/abs/2403.10153v1
Date: Fri, 15 Mar 2024 09:54:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 17:50:08.375098
Title: Improving Medical Multi-modal Contrastive Learning with Expert Annotations
Title（参考訳）: エキスパートアノテーションによる医用マルチモーダルコントラスト学習の改善
Authors: Yogesh Kumar, Pekka Marttinen,
Abstract要約: eCLIPはCLIPモデルの強化版であり、放射線学者の眼球熱マップの形で専門家アノテーションを統合する。対照的なマルチモーダル医療画像解析における重要な課題、特にデータ不足と「モダリティギャップ」に対処する。
参考スコア（独自算出の注目度）: 8.06905122449317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce eCLIP, an enhanced version of the CLIP model that integrates expert annotations in the form of radiologist eye-gaze heatmaps. It tackles key challenges in contrastive multi-modal medical imaging analysis, notably data scarcity and the "modality gap" -- a significant disparity between image and text embeddings that diminishes the quality of representations and hampers cross-modal interoperability. eCLIP integrates a heatmap processor and leverages mixup augmentation to efficiently utilize the scarce expert annotations, thus boosting the model's learning effectiveness. eCLIP is designed to be generally applicable to any variant of CLIP without requiring any modifications of the core architecture. Through detailed evaluations across several tasks, including zero-shot inference, linear probing, cross-modal retrieval, and Retrieval Augmented Generation (RAG) of radiology reports using a frozen Large Language Model, eCLIP showcases consistent improvements in embedding quality. The outcomes reveal enhanced alignment and uniformity, affirming eCLIP's capability to harness high-quality annotations for enriched multi-modal analysis in the medical imaging domain.
Abstract（参考訳）: そこで我々は,CLIPモデルの強化版であるeCLIPを紹介した。対照的なマルチモーダルな医療画像分析において、特にデータ不足と"モダリティギャップ" -- 表現の質を低下させ、モダリティ間の相互運用性を損なうような、画像とテキストの埋め込みとの大きな相違 -- に対処する。 eCLIPは、ヒートマッププロセッサを統合し、ミックスアップ拡張を利用して、不足する専門家アノテーションを効率的に活用することで、モデルの学習効率を向上する。 eCLIPは、コアアーキテクチャの変更を必要とせずに、CLIPのあらゆる変種に適用できるように設計されている。ゼロショット推論、線形探索、クロスモーダル検索、凍結したLarge Language Modelを用いた放射線学レポートの検索拡張生成(RAG)など、様々なタスクの詳細な評価を通じて、eCLIPは埋め込み品質を一貫した改善を示す。その結果, 医用画像領域における高次マルチモーダル分析のために, 高品質なアノテーションを活用するeCLIPの能力が確認された。

関連論文リスト

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文参考訳（メタデータ） (2026-02-16T06:27:51Z)
Multi-task Cross-modal Learning for Chest X-ray Image Retrieval [1.8648093673053043]
医用検索タスクにCLIPとBiomedCLIPを微調整するマルチタスク学習フレームワークを提案する。微調整モデルにより,画像・テキスト・画像検索とテキスト・画像検索の双方において,よりバランスよく,臨床的に有意な性能が得られることを示す。これらの知見は, バイオメディカル応用におけるクロスモーダル検索の進歩に, ドメイン適応型マルチタスク学習の意義を浮き彫りにしている。
論文参考訳（メタデータ） (2026-01-08T21:44:00Z)
TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。 TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-24T12:06:26Z)
MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。 TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文参考訳（メタデータ） (2025-11-13T06:30:41Z)
Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:04Z)
Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文参考訳（メタデータ） (2025-08-06T05:44:01Z)
Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文参考訳（メタデータ） (2025-05-03T06:18:12Z)
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文参考訳（メタデータ） (2025-04-29T01:26:02Z)
Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
CMSwinKANは、病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルである。臨床所見から導かれるソフト投票機構を導入し,パッチレベルの予測をスライド画像全体の分類にシームレスにブリッジする。その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文参考訳（メタデータ） (2025-04-18T15:39:46Z)
Interactive Tumor Progression Modeling via Sketch-Based Image Editing [54.47725383502915]
腫瘍進行編集のためのスケッチベース拡散モデルであるSkEditTumorを提案する。スケッチを構造的先行として活用することにより,構造的整合性と視覚的リアリズムを維持しつつ,腫瘍領域の精密な修正を可能にする。私たちのコントリビューションには、医用画像編集のための拡散モデルとスケッチの新たな統合、腫瘍進行の可視化のきめ細かい制御、複数のデータセットにわたる広範な検証などが含まれています。
論文参考訳（メタデータ） (2025-03-10T00:04:19Z)
Task-oriented Uncertainty Collaborative Learning for Label-Efficient Brain Tumor Segmentation [6.722672686635773]
マルチコントラストMRI(Multi-Contrast magnetic resonance imaging)は、脳腫瘍の分節化と診断において重要な役割を担っている。既存の手法は、異なるコントラストをまたいだマルチレベル特異性知覚の課題に直面している。マルチコントラストMRIセグメンテーションのためのタスク指向不確実性協調学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T18:44:53Z)
Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning [5.660131312162423]
本稿では,マルチモーダルな医用画像分類のためのクロスグラフ・モーダルコントラスト学習フレームワークを提案する。提案手法は、パーキンソン病(PD)データセットと公共メラノーマデータセットの2つのデータセットで評価される。以上の結果から,CGMCLは従来手法よりも精度,解釈可能性,早期疾患予測に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-10-23T01:25:25Z)
MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文参考訳（メタデータ） (2024-10-21T17:42:41Z)
C-MELT: Contrastive Enhanced Masked Auto-Encoders for ECG-Language Pre-Training [10.088785685439134]
本稿では,コントラッシブマスクを用いた自動エンコーダアーキテクチャを用いて,ECGとテキストデータを事前学習するフレームワークであるC-MELTを提案する。 C-MELTは、生成性の強さと識別能力の強化を一意に組み合わせて、堅牢なクロスモーダル表現を実現する。
論文参考訳（メタデータ） (2024-10-03T01:24:09Z)
Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images [1.4680035572775536]
ヴィジュアル言語モデルは、医療領域におけるマルチモーダル分類問題に挑戦するための強力なツールとして登場した。既存の研究は、特定のモダリティや身体領域の臨床的記述に焦点を当てており、全身のマルチモーダル記述を提供するモデルにギャップを残している。本稿では,マルチモーダルMRIおよびCT画像において,全身の標準化された体局と臓器のリストの自動生成により,このギャップに対処する。
論文参考訳（メタデータ） (2024-05-31T09:59:11Z)
SELECTOR: Heterogeneous graph network with convolutional masked autoencoder for multimodal robust prediction of cancer survival [8.403756148610269]
がん患者生存のマルチモーダル予測は、より包括的で正確なアプローチを提供する。本稿では、畳み込みマスクエンコーダに基づく異種グラフ認識ネットワークであるSELECTORを紹介する。本手法は,モダリティ欠落とモダリティ内情報確認の両事例において,最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2024-03-14T11:23:39Z)
XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文参考訳（メタデータ） (2023-12-29T14:28:04Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。 Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文参考訳（メタデータ） (2023-08-19T15:08:10Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-10T17:58:22Z)
Competence-based Multimodal Curriculum Learning for Medical Report Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文参考訳（メタデータ） (2022-06-24T08:16:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。