論文の概要: MedicalNarratives: Connecting Medical Vision and Language with Localized Narratives
- arxiv url: http://arxiv.org/abs/2501.04184v2
- Date: Mon, 13 Jan 2025 03:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:49.003445
- Title: MedicalNarratives: Connecting Medical Vision and Language with Localized Narratives
- Title(参考訳): メディカルナラティブ: 医療ビジョンと言語と局所的ナラティブを結びつける
- Authors: Wisdom O. Ikezogwo, Kevin Zhang, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Linda Shapiro, Ranjay Krishna,
- Abstract要約: MedicalNarrativesは、Think-Aloudの研究で収集されたデータと、本質的に類似した医療教育ビデオから収集されたデータセットである。
我々のデータセットは、ビデオと記事から4.7Mの画像テキストペアを含み、100万のサンプルには、トレースとバウンディングボックスの形で密集したアノテーションが含まれている。
MedicalNarrativesの有用性を評価するために、12の医療ドメインにまたがるデータセットを用いて、CLIPアーキテクチャに基づいてGenMedClipをトレーニングする。
- 参考スコア(独自算出の注目度): 11.242775987217032
- License:
- Abstract: We propose MedicalNarratives, a dataset curated from medical pedagogical videos similar in nature to data collected in Think-Aloud studies and inspired by Localized Narratives, which collects grounded image-text data by curating instructors' speech and mouse cursor movements synchronized in time. MedicalNarratives enables pretraining of both semantic and dense objectives, alleviating the need to train medical semantic and dense tasks disparately due to the lack of reasonably sized datasets. Our dataset contains 4.7M image-text pairs from videos and articles, with 1M samples containing dense annotations in the form of traces and bounding boxes. To evaluate the utility of MedicalNarratives, we train GenMedClip based on the CLIP architecture using our dataset spanning 12 medical domains and demonstrate that it outperforms previous state-of-the-art models on a newly constructed medical imaging benchmark that comprehensively evaluates performance across all modalities. Data, demo, code and models available at https://medical-narratives.github.io
- Abstract(参考訳): そこで我々は,シンク・アラウド・スタディで収集されたデータと類似した医療教育ビデオから収集したデータセットであるMessicalNarrativesを提案し,インストラクターの音声とマウスのカーソルの動きを時間内に同期させることで,画像テキストデータを収集するLocalized Narrativesに着想を得た。
MedicalNarrativesは、セマンティックと密集した目的の両方の事前トレーニングを可能にし、合理的なサイズのデータセットが欠如していることから、医療セマンティックと密集したタスクのトレーニングの必要性を緩和する。
我々のデータセットは、ビデオと記事から4.7Mの画像テキストペアを含み、100万のサンプルには、トレースとバウンディングボックスの形で密集したアノテーションが含まれている。
MedicalNarrativesの有用性を評価するために、我々は12の医療領域にまたがるデータセットを使用して、CLIPアーキテクチャに基づいてGenMedClipをトレーニングし、すべてのモダリティを網羅的に評価する、新しく構築された医療画像ベンチマークにおいて、従来の最先端モデルよりも優れていることを示す。
data, demo, code and model available at https://medical-narratives.github.io
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MedContext: Learning Contextual Cues for Efficient Volumetric Medical Segmentation [25.74088298769155]
医用3次元セグメンテーションのためのユニバーサルトレーニングフレームワークMedContextを提案する。
本手法は,教師付きボクセルセグメンテーションタスクと協調して,自己教師付きコンテキストキューを効果的に学習する。
MedContextの有効性は、複数の3D医療データセットと4つの最先端モデルアーキテクチャで検証されている。
論文 参考訳(メタデータ) (2024-02-27T17:58:05Z) - HICH Image/Text (HICH-IT): Comprehensive Text and Image Datasets for
Hypertensive Intracerebral Hemorrhage Research [12.479936404475803]
高血圧性脳内出血(HICH)の医学領域にHICH-ITと呼ばれる新しいデータセットを導入する。
このデータセットは、HICHの診断と治療における人工知能の精度を高めるように設計されている。
論文 参考訳(メタデータ) (2024-01-29T07:44:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Suggestive Annotation of Brain Tumour Images with Gradient-guided
Sampling [14.092503407739422]
本稿では,脳腫瘍画像に対する効率的なアノテーションフレームワークを提案する。
実験によると、BraTS 2019データセットから、わずか19%の注釈付き患者スキャンでセグメンテーションモデルをトレーニングすることは、腫瘍セグメンテーションタスク全体のデータセット上でモデルをトレーニングするのと同等のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2020-06-26T13:39:49Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。