論文の概要: Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant
- arxiv url: http://arxiv.org/abs/2505.03380v1
- Date: Tue, 06 May 2025 10:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.319962
- Title: Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant
- Title(参考訳): 精密医療用AIアシスタントのための視覚と言語の関係強化
- Authors: Haonan Wang, Jiaji Mao, Lehan Wang, Qixiang Zhang, Marawan Elbatel, Yi Qin, Huijun Hu, Baoxun Li, Wenhui Deng, Weifeng Qin, Hongrui Li, Jialin Liang, Jun Shen, Xiaomeng Li,
- Abstract要約: RCMedは、入力と出力の両方におけるマルチモーダルアライメントを改善するフルスタックAIアシスタントである。
不規則な病変と微妙な解剖学的境界の文脈化において最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 11.187690318227514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical AI assistants support doctors in disease diagnosis, medical image analysis, and report generation. However, they still face significant challenges in clinical use, including limited accuracy with multimodal content and insufficient validation in real-world settings. We propose RCMed, a full-stack AI assistant that improves multimodal alignment in both input and output, enabling precise anatomical delineation, accurate localization, and reliable diagnosis through hierarchical vision-language grounding. A self-reinforcing correlation mechanism allows visual features to inform language context, while language semantics guide pixel-wise attention, forming a closed loop that refines both modalities. This correlation is enhanced by a color region description strategy, translating anatomical structures into semantically rich text to learn shape-location-text relationships across scales. Trained on 20 million image-mask-description triplets, RCMed achieves state-of-the-art precision in contextualizing irregular lesions and subtle anatomical boundaries, excelling in 165 clinical tasks across 9 modalities. It achieved a 23.5% relative improvement in cell segmentation from microscopy images over prior methods. RCMed's strong vision-language alignment enables exceptional generalization, with state-of-the-art performance in external validation across 20 clinically significant cancer types, including novel tasks. This work demonstrates how integrated multimodal models capture fine-grained patterns, enabling human-level interpretation in complex scenarios and advancing human-centric AI healthcare.
- Abstract(参考訳): 医療AIアシスタントは、疾患診断、画像解析、レポート生成における医師を支援する。
しかし、マルチモーダルコンテンツによる精度の制限や、現実の環境での検証の不十分など、臨床利用において大きな課題に直面している。
入力と出力の両方においてマルチモーダルアライメントを改善するフルスタックAIアシスタントであるRCMedを提案する。
自己強化相関機構により、視覚的特徴が言語コンテキストを知らせる一方、言語意味論はピクセル単位の注意を導き、両方のモダリティを洗練させる閉じたループを形成する。
この相関関係は、色領域記述戦略によって強化され、解剖学的構造を意味的にリッチなテキストに変換して、スケールをまたいだ形状-位置-テキスト関係を学習する。
RCMedは2000万枚の画像マスクでトレーニングされ、不規則な病変と微妙な解剖学的境界を文脈化して最先端の精度を達成し、9つのモードで165の臨床的タスクに優れています。
従来の方法に比べて、顕微鏡画像から細胞セグメンテーションを23.5%改善した。
RCMedの強力な視覚言語アライメントは、新規なタスクを含む20の臨床的に重要ながんタイプにまたがる、最先端のバリデーションにおいて、異常な一般化を可能にする。
この研究は、統合マルチモーダルモデルがどのようにきめ細かいパターンを捉え、複雑なシナリオにおける人間レベルの解釈を可能にし、人間中心のAIヘルスケアを前進させるかを実証する。
関連論文リスト
- RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding [0.0]
RegionMed-CLIPは、局所的な病理信号と全体論的意味表現を組み込んだマルチモーダルコントラスト学習フレームワークである。
MedRegion-500kは、広範囲な地域アノテーションと多段階の臨床的記述を特徴とする総合的な医用画像テキストコーパスである。
本研究は,マルチモーダル医用画像理解の基盤として,地域対応型コントラスト事前訓練の重要性を強調した。
論文 参考訳(メタデータ) (2025-08-07T10:32:03Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。
本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。
我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-04-22T14:17:51Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training [7.968487067774351]
3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
論文 参考訳(メタデータ) (2024-12-08T09:45:59Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。