論文の概要: Advancing Medical Representation Learning Through High-Quality Data
- arxiv url: http://arxiv.org/abs/2503.14377v1
- Date: Tue, 18 Mar 2025 16:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:54.447541
- Title: Advancing Medical Representation Learning Through High-Quality Data
- Title(参考訳): 高品質データによる医用表現学習の促進
- Authors: Negin Baghbanzadeh, Adibvafa Fallahpour, Yasaman Parhizkar, Franklin Ogidi, Shuvendu Roy, Sajad Ashkezari, Vahid Reza Khazaie, Michael Colacci, Ali Etemad, Arash Afkanpour, Elham Dolatabadi,
- Abstract要約: PubMed Centralの高品質な医療データセットであるOpen-PMCを紹介する。
インテキスト参照は、典型的にはキャプションに見られる抽象的な情報を超えて、よりリッチな医療コンテキストを提供する。
我々は、検索とゼロショット分類タスクにわたるより大きなデータセットに対してOpen-PMCをベンチマークする。
- 参考スコア(独自算出の注目度): 14.522284057070395
- License:
- Abstract: Despite the growing scale of medical Vision-Language datasets, the impact of dataset quality on model performance remains under-explored. We introduce Open-PMC, a high-quality medical dataset from PubMed Central, containing 2.2 million image-text pairs, enriched with image modality annotations, subfigures, and summarized in-text references. Notably, the in-text references provide richer medical context, extending beyond the abstract information typically found in captions. Through extensive experiments, we benchmark Open-PMC against larger datasets across retrieval and zero-shot classification tasks. Our results show that dataset quality-not just size-drives significant performance gains. We complement our benchmark with an in-depth analysis of feature representation. Our findings highlight the crucial role of data curation quality in advancing multimodal medical AI. We release Open-PMC, along with the trained models and our codebase.
- Abstract(参考訳): 医療用ビジョン・ランゲージデータセットの大規模化にもかかわらず、データセットの品質がモデルパフォーマンスに与える影響は未調査のままである。
我々はPubMed Centralの高品質な医療データセットであるOpen-PMCを紹介した。
特に、テキスト内の参照は、典型的にはキャプションに見られる抽象的な情報を超えて、よりリッチな医療コンテキストを提供する。
広範にわたる実験を通じて、検索およびゼロショット分類タスクにわたるより大きなデータセットに対してOpen-PMCをベンチマークする。
以上の結果から,データセットの品質はサイズだけでなく,大きなパフォーマンス向上をもたらすことが示唆された。
特徴表現の詳細な分析でベンチマークを補完する。
我々の研究は、マルチモーダル医療AIの進歩におけるデータキュレーション品質の重要な役割を浮き彫りにした。
トレーニングされたモデルとコードベースとともに、Open-PMCをリリースしています。
関連論文リスト
- In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review [18.178774133733686]
本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。
医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
論文 参考訳(メタデータ) (2025-01-18T11:03:59Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Building RadiologyNET: Unsupervised annotation of a large-scale
multimodal medical database [0.4915744683251151]
医学的診断と治療における機械学習の使用は、近年顕著な成長をみせている。
しかし、アノテーションのプロセスは時間がかかり、コストがかかるため、大きな注釈付き画像データセットが利用できることは大きな障害である。
本稿では, 医用放射線画像のデータベースに意味的類似性について, 自動的に注釈付けを行う方法について検討する。
論文 参考訳(メタデータ) (2023-07-27T13:00:33Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。