論文の概要: Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
- arxiv url: http://arxiv.org/abs/2603.09108v1
- Date: Tue, 10 Mar 2026 02:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.954038
- Title: Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
- Title(参考訳): 大域的および局所的表現の併用による皮膚癌症例検索のための構成的視覚言語検索法
- Authors: Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee,
- Abstract要約: そこで本研究では,各問合せは画像対とテキスト対から構成される皮膚がんの視覚言語検索について検討した。
本稿では,階層的なクエリ表現を学習し,共同でグローバルなアライメントを行うトランスフォーマーベースのフレームワークを提案する。
パブリックなDerm7ptデータセットの実験では、最先端の手法よりも一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 13.817645903067847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image retrieval aims to identify clinically relevant lesion cases to support diagnostic decision making, education, and quality control. In practice, retrieval queries often combine a reference lesion image with textual descriptors such as dermoscopic features. We study composed vision-language retrieval for skin cancer, where each query consists of an image to text pair and the database contains biopsy-confirmed, multi-class disease cases. We propose a transformer based framework that learns hierarchical composed query representations and performs joint global-local alignment between queries and candidate images. Local alignment aggregates discriminative regions via multiple spatial attention masks, while global alignment provides holistic semantic supervision. The final similarity is computed through a convex, domain-informed weighting that emphasizes clinically salient local evidence while preserving global consistency. Experiments on the public Derm7pt dataset demonstrate consistent improvements over state-of-the-art methods. The proposed framework enables efficient access to relevant medical records and supports practical clinical deployment.
- Abstract(参考訳): 医用画像検索は、臨床関連疾患の特定を目的とし、診断意思決定、教育、品質管理を支援する。
実際には、検索クエリは、基準病変画像と、皮膚内視鏡的特徴などのテキスト記述子を組み合わせることが多い。
本研究は,皮膚癌に対する視覚言語検索で,各クエリは画像とテキストのペアで構成され,データベースには生検で確認された多発性疾患の症例が含まれている。
本稿では,階層的なクエリ表現を学習し,クエリと候補画像のグローバルなアライメントを行うトランスフォーマーベースのフレームワークを提案する。
局所的なアライメントは、複数の空間的注意マスクを介して識別領域を集約し、グローバルアライメントは全体論的セマンティックな監督を提供する。
最終的な類似性は、グローバルな一貫性を維持しながら臨床的に健全な局所的な証拠を強調する凸、ドメインインフォームド重み付けによって計算される。
パブリックなDerm7ptデータセットの実験では、最先端の手法よりも一貫した改善が示されている。
提案フレームワークは,関連医療記録への効率的なアクセスを可能にし,実践的な臨床展開を支援する。
関連論文リスト
- Anatomy-Aware Conditional Image-Text Retrieval [29.872292146073207]
Image-Text Retrieval (ITR) は、関連する患者を自動的に検索することで、医療、臨床医、放射線科医に広く応用されている。
我々は,同じ解剖領域で類似の症例を検索することを目的とした解剖学的位置決定画像検索フレームワークを提案する。
提案したRRA-VLは,位相グラウンドタスクにおける最先端のローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-03-10T15:36:49Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - Region-based Contrastive Pretraining for Medical Image Retrieval with
Anatomic Query [56.54255735943497]
医用画像検索のための地域別コントラスト事前トレーニング(RegionMIR)
医用画像検索のための領域ベースコントラスト事前トレーニング(RegionMIR)について紹介する。
論文 参考訳(メタデータ) (2023-05-09T16:46:33Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。