Fugu-MT 論文翻訳(概要): PMC-InterCPT: Rethinking Biomedical Interleaved Data for Multimodal Continued Pretraining

論文の概要: PMC-InterCPT: Rethinking Biomedical Interleaved Data for Multimodal Continued Pretraining

arxiv url: http://arxiv.org/abs/2606.01049v1
Date: Sun, 31 May 2026 06:38:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 00:57:58.937019
Title: PMC-InterCPT: Rethinking Biomedical Interleaved Data for Multimodal Continued Pretraining
Title（参考訳）: PMC-InterCPT:マルチモーダルプレトレーニングのためのバイオメディカルインターリーブデータの再検討
Authors: Guanghao Zhu, Zeyu Liu, Zhitian Hou, Pengkai Wang, Zhijie Sang, Minheng Ni, Wenjun Wang, Yanggan Gu, Shuo Cai, Congkai Xie, Jianmin Wu, Hongxia Yang,
Abstract要約: PMC-InterCPT (英語: PMC-InterCPT) は、字幕に加えて、図形によって指示された身体のテキストを組み込んだ、文脈的なバイオメディカルなインターリーブコーパスである。パイプラインは欠落したキャプションを回復し,キャプションとコンテキストテキストをクリーン化し,コヒーレントなインターリーブ画像テキストサンプルを再構成する。 PMC-InterCPTは、原料プールよりもCPTトークンが少ないため、医療・一般マルチモーダル性能を効果的に向上する。
参考スコア（独自算出の注目度）: 26.928698886913903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale biomedical image-text datasets extracted from scientific literature provide valuable resources for medical multimodal model training. These datasets are commonly organized as image-caption pairs; however, figure captions are often short, context-dependent, and only partially informative without the surrounding article text. At the same time, large-scale automatic extraction introduces structural noise such as missing captions, residual markup, duplicated context, and incoherent multi-paragraph figure descriptions. We revisit data construction for medical multimodal continued pretraining (CPT) and present PMC-InterCPT, a context-grounded biomedical interleaved corpus that incorporates figure-referencing body text in addition to captions. Our pipeline recovers missing captions, cleans caption and context text, reconstructs coherent interleaved image-text samples, and applies LLM-supervised medical relevance and quality classifiers to filter noisy records. We further reveal strong modality imbalance in the resulting corpus and introduce a four-bucket evidence taxonomy for modality-aware resampling. Through CPT followed by supervised fine-tuning (SFT) on Qwen3.5-4B-Base, PMC-InterCPT effectively improves medical and general multimodal performance while using fewer CPT tokens than the raw source pool. The experimental results also illustrate the complementarity between the data quality and modality for medical multimodal CPT.
Abstract（参考訳）: 科学文献から抽出した大規模バイオメディカル画像テキストデータセットは、医療マルチモーダルモデルトレーニングに有用な資源を提供する。これらのデータセットは一般的にイメージキャプションペアとして整理されるが、図形キャプションはしばしば短く、文脈に依存しており、周囲の記事のテキストがなければ部分的には情報的ではない。同時に、大規模な自動抽出は、欠落した字幕、残留マークアップ、重複コンテキスト、非一貫性な複数パラグラフ図形記述などの構造ノイズを導入している。医用マルチモーダル継続事前訓練(CPT)のためのデータ構築と,字幕に加えて図形参照ボディテキストを組み込んだ文脈的バイオメディカルインターリーブコーパスであるPMC-InterCPTについて検討した。パイプラインは欠落したキャプションを回復し、キャプションとコンテキストテキストをクリーン化し、コヒーレントなインターリーブ画像テキストサンプルを再構成し、LLMが管理する医療関連性および品質分類器を適用してノイズのあるレコードをフィルタリングする。さらに、結果のコーパスに強いモダリティの不均衡を明らかにし、モダリティを意識した再サンプリングのための4つのバケットのエビデンスを導入する。 CPT と Qwen3.5-4B-Base の教師付き微調整 (SFT) によって PMC-InterCPT は, 原点プールよりも CPT トークンが少なく, 医療・一般マルチモーダル性能を効果的に向上させる。また, 医療用マルチモーダルCPTにおけるデータ品質とモダリティの相補性についても検討した。

関連論文リスト

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文参考訳（メタデータ） (2026-03-05T07:07:07Z)
TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。 TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-24T12:06:26Z)
CLIP-IT: CLIP-based Pairing for Histology Images Classification [14.397842743945155]
マルチモーダル学習は、画像やテキストのような相補的なモダリティを組み合わせた医療画像において有望であることを示している。 CLIP-IT(CLIP-IT)は、リッチな未ペアテキストレポートに依存する新しいフレームワークである。また,CLIP-ITは,CLIPベースラインの非標準およびマルチモーダルベースラインの分類精度を常に向上することを示した。
論文参考訳（メタデータ） (2025-04-22T18:14:43Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-01-03T07:54:13Z)
ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training [21.315060059765894]
本稿では,新しいEntity-centered Context-aware Medical Vision-Language Pre-trainingフレームワークを提案する。まず,大規模言語モデルを用いた医療報告からエンティティ中心のコンテキストを抽出する。次に、エンティティ・アウェア・リバランス係数と記述子マスキング戦略をマスキング言語モデルに組み込む。粗い画像表現と細かな画像表現の両方のセマンティック統合を改善するため、コンテキスト誘導型超解像タスクをマルチスケールのコンテキスト融合設計と共に提案する。
論文参考訳（メタデータ） (2023-12-20T11:00:54Z)
IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文参考訳（メタデータ） (2023-10-11T10:12:43Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-01T14:21:19Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。