論文の概要: From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature
- arxiv url: http://arxiv.org/abs/2512.02566v1
- Date: Tue, 02 Dec 2025 09:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.808456
- Title: From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature
- Title(参考訳): パネルからピクセルへ:バイオメディカル・サイエンス文献から学ぶズームインビジョン・ランゲージ
- Authors: Kun Yuan, Min Woo Sun, Zhen Chen, Alejandro Lozano, Xiangteng He, Shi Li, Nassir Navab, Xiaoxiao Sun, Nicolas Padoy, Serena Yeung-Levy,
- Abstract要約: パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
- 参考スコア(独自算出の注目度): 86.7745150269054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in developing strong biomedical vision-language models. A popular approach to achieve robust representations is to use web-scale scientific data. However, current biomedical vision-language pretraining typically compresses rich scientific figures and text into coarse figure-level pairs, discarding the fine-grained correspondences that clinicians actually rely on when zooming into local structures. To tackle this issue, we introduce Panel2Patch, a novel data pipeline that mines hierarchical structure from existing biomedical scientific literature, i.e., multi-panel, marker-heavy figures and their surrounding text, and converts them into multi-granular supervision. Given scientific figures and captions, Panel2Patch parses layouts, panels, and visual markers, then constructs hierarchical aligned vision-language pairs at the figure, panel, and patch levels, preserving local semantics instead of treating each figure as a single data sample. Built on this hierarchical corpus, we develop a granularity-aware pretraining strategy that unifies heterogeneous objectives from coarse didactic descriptions to fine region-focused phrases. By applying Panel2Patch to only a small set of the literature figures, we extract far more effective supervision than prior pipelines, enabling substantially better performance with less pretraining data.
- Abstract(参考訳): 強力なバイオメディカルビジョン言語モデルの開発への関心が高まっている。
堅牢な表現を実現するための一般的なアプローチは、Webスケールの科学データを使用することである。
しかし、現在のバイオメディカル・ビジョン言語による事前訓練は、典型的には豊かな科学的人物とテキストを粗い図形レベルのペアに圧縮する。
この問題に対処するために,Panel2Patchという,既存のバイオメディカル科学文献,すなわちマルチパネル,マーカー重数字とその周辺テキストから階層構造をマイニングする,新しいデータパイプラインを導入する。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、視覚マーカーを解析し、フィギュア、パネル、パッチのレベルで階層的に整列した視覚言語ペアを構築し、各フィギュアを単一のデータサンプルとして扱うのではなく、局所的なセマンティクスを保存する。
この階層型コーパスを基盤として,不均一な目的を粗いドクティック記述から細かな領域中心のフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
Panel2Patchを少数の文献にのみ適用することにより、以前のパイプラインよりもはるかに効果的な監視を抽出し、事前学習の少ないデータで大幅にパフォーマンスを向上する。
関連論文リスト
- A Reality Check of Vision-Language Pre-training in Radiology: Have We Progressed Using Text? [20.94974284175104]
大規模データソースを使用してリッチな特徴表現を学習可能にすることで、ビジョン言語による事前学習が最近人気を集めている。
本報告では, 教師付き単調な事前学習を, きめ細かいラベルを用いて再検討する。
我々は,不均質なデータソースの統合に適し,単調な事前学習が競争力が高く,適していることを示す広範な比較を行う。
論文 参考訳(メタデータ) (2025-04-07T16:13:26Z) - BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文 参考訳(メタデータ) (2025-03-30T17:34:39Z) - Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts? [14.547437214214485]
医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。