論文の概要: Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2506.02738v1
- Date: Tue, 03 Jun 2025 10:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.597058
- Title: Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning
- Title(参考訳): Open-PMC-18M:マルチモーダル表現学習のための大規模医療データセット
- Authors: Negin Baghbanzadeh, Sajad Ashkezari, Elham Dolatabadi, Arash Afkanpour,
- Abstract要約: 本稿では,トランスを用いたオブジェクト検出に基づくスケーラブルなサブフィギュア抽出パイプラインを提案する。
我々は,大規模バイオメディカルビジョン言語データセットであるOPEN-PMC-18Mをリリースする。
検索性能の改善,ゼロショット分類,ロバストネスベンチマークを示す。
- 参考スコア(独自算出の注目度): 0.03214166687856062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compound figures, which are multi-panel composites containing diverse subfigures, are ubiquitous in biomedical literature, yet large-scale subfigure extraction remains largely unaddressed. Prior work on subfigure extraction has been limited in both dataset size and generalizability, leaving a critical open question: How does high-fidelity image-text alignment via large-scale subfigure extraction impact representation learning in vision-language models? We address this gap by introducing a scalable subfigure extraction pipeline based on transformer-based object detection, trained on a synthetic corpus of 500,000 compound figures, and achieving state-of-the-art performance on both ImageCLEF 2016 and synthetic benchmarks. Using this pipeline, we release OPEN-PMC-18M, a large-scale high quality biomedical vision-language dataset comprising 18 million clinically relevant subfigure-caption pairs spanning radiology, microscopy, and visible light photography. We train and evaluate vision-language models on our curated datasets and show improved performance across retrieval, zero-shot classification, and robustness benchmarks, outperforming existing baselines. We release our dataset, models, and code to support reproducible benchmarks and further study into biomedical vision-language modeling and representation learning.
- Abstract(参考訳): 多様なサブフィギュアを含む多パネル複合材料である複合図形は、生物医学の文献では至るところで見られるが、大規模なサブフィギュア抽出はいまだほとんど使われていない。
大規模サブフィギュア抽出による高忠実な画像テキストアライメントは、視覚言語モデルにおける影響表現学習にどのように役立つのか?
我々は、トランスフォーマーに基づくオブジェクト検出に基づくスケーラブルなサブフィギュア抽出パイプラインを導入し、50,000の複合図形からなる合成コーパスに基づいて訓練し、ImageCLEF 2016と合成ベンチマークの両方で最先端の性能を達成することにより、このギャップに対処する。
本パイプラインを用いたOPEN-PMC-18Mは, 放射線学, 顕微鏡, 可視光写真にまたがる1800万種類の臨床関連サブフィギュアカプセルからなる, 大規模で高品質なバイオメディカルビジョン言語データセットである。
私たちは、キュレートされたデータセット上でビジョン言語モデルをトレーニングし、評価し、検索、ゼロショット分類、ロバストネスベンチマークによるパフォーマンスの向上を示し、既存のベースラインよりも優れています。
我々は、再現可能なベンチマークをサポートするためのデータセット、モデル、コードをリリースし、生体医用視覚言語モデリングと表現学習についてさらに研究する。
関連論文リスト
- Advancing Medical Representation Learning Through High-Quality Data [14.522284057070395]
PubMed Centralの高品質な医療データセットであるOpen-PMCを紹介する。
インテキスト参照は、典型的にはキャプションに見られる抽象的な情報を超えて、よりリッチな医療コンテキストを提供する。
我々は、検索とゼロショット分類タスクにわたるより大きなデータセットに対してOpen-PMCをベンチマークする。
論文 参考訳(メタデータ) (2025-03-18T16:10:11Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Microscopic fine-grained instance classification through deep attention [7.50282814989294]
限られたサンプルを用いた微視的画像データのきめ細かい分類は、コンピュータビジョンとバイオメディカルイメージングにおいて未解決の問題である。
本稿では,エンドツーエンドで2つのタスクを同時に実行する,シンプルで効果的なディープネットワークを提案する。
その結果、堅牢だが軽量なエンドツーエンドのトレーニング可能なディープネットワークが実現し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-10-06T15:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。