論文の概要: PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
- arxiv url: http://arxiv.org/abs/2605.02720v1
- Date: Mon, 04 May 2026 15:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.371985
- Title: PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
- Title(参考訳): PubMed-Ophtha:科学文献における眼科視覚言語モデルのトレーニングのためのオープンリソース
- Authors: Verena Jasmin Hallitschke, Carsten Eickhoff, Philipp Berens,
- Abstract要約: PubMed Centralの15,842項目から抽出した102,023個の眼科画像カプセルの階層的データセットについて述べる。
図は全解像度で記事PDFから直接抽出され、構成パネル、パネル識別子、個々の画像に分解される。
- 参考スコア(独自算出の注目度): 26.212464729945935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models hold considerable promise for ophthalmology, but their development depends on large-scale, high-quality image-text datasets that remain scarce. We present PubMed-Ophtha, a hierarchical dataset of 102,023 ophthalmological image-caption pairs extracted from 15,842 open-access articles in PubMed Central. Unlike existing datasets, figures are extracted directly from article PDFs at full resolution and decomposed into their constituent panels, panel identifiers, and individual images. Each image is annotated with its imaging modality -- color fundus photography, optical coherence tomography, retinal imaging, or other -- and a mark status indicating the presence of annotation marks such as arrows. Figure captions are split into panel-level subcaptions using a two-step LLM approach, achieving a mean average sentence BLEU score of 0.913 on human-annotated data. Panel and image detection models reach a mAP@0.50 of 0.909 and 0.892, respectively, and figure extraction achieves a median IoU of 0.997. To support reproducibility, we additionally release the human-annotated ground-truth data, all trained models, and the full dataset generation pipeline.
- Abstract(参考訳): 視覚言語モデルは眼科にかなり期待できるが、その開発は、少ないままの大規模で高品質な画像テキストデータセットに依存している。
PubMed-Ophthaは、PubMed Centralで15,842個のオープンアクセスアイテムから抽出された102,023個の眼科画像カプセルの階層的データセットである。
既存のデータセットとは異なり、図は全解像度で記事PDFから直接抽出され、構成パネル、パネル識別子、個々の画像に分解される。
それぞれの画像には、カラーベース撮影、光コヒーレンストモグラフィー、網膜イメージングなどの画像モダリティと、矢印のような注釈マークの存在を示すマークが付与されている。
図のキャプションを2段階のLCMアプローチでパネルレベルのサブキャプションに分割し、人間の注釈付きデータの平均文BLEUスコア0.913を達成する。
パネルと画像検出モデルはそれぞれ0.909と0.892のmAP@0.50に達し、フィギュア抽出は0.997の中央IoUを達成する。
再現性をサポートするため、人間による注釈付き地上データ、訓練済みモデル、全データセット生成パイプラインもリリースします。
関連論文リスト
- MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry [32.93319761809706]
VLM(Vision-Language Models)は、医用画像解析において重要な可能性を示している。
口内撮影におけるそれらの応用は、細粒度で注釈付きデータセットと包括的なベンチマークが欠如していることから、いまだほとんど探索されていない。
本稿では, 臨床, 公衆およびWebソースから収集した, 新規で大規模な歯科画像データセットを含む包括的リソースであるMetaDentについて紹介する。
論文 参考訳(メタデータ) (2026-04-16T10:56:54Z) - GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning [1.25828876338076]
コンピュータ支援病理学においてWSI分類とキャプションが重要な課題となっている。
病理画像からの分類とキャプション生成のための新しいGNN-ViTCapフレームワークを提案する。
GNN-ViTCapのF1スコアは0.934、AUCは0.963、BLEU-4スコアは0.811、METEORスコアは0.569である。
論文 参考訳(メタデータ) (2025-07-09T16:35:21Z) - Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data [0.0]
我々は、科学画像におけるデータ準備のボトルネックを軽減するように設計された、ノーコードインタラクティブなコンピュータビジョンプラットフォームであるZenesisを紹介した。
Zenesisは、生の科学データに基づくゼロショット推論のための軽量な適応、ヒューマン・イン・ザ・ループの洗練、および注釈付き時間拡張を統合している。
論文 参考訳(メタデータ) (2025-06-30T16:45:23Z) - Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning [0.03214166687856062]
本稿では,トランスを用いたオブジェクト検出に基づくスケーラブルなサブフィギュア抽出パイプラインを提案する。
我々は,大規模バイオメディカルビジョン言語データセットであるOPEN-PMC-18Mをリリースする。
検索性能の改善,ゼロショット分類,ロバストネスベンチマークを示す。
論文 参考訳(メタデータ) (2025-06-03T10:53:19Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。