論文の概要: Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modelling
- arxiv url: http://arxiv.org/abs/2512.17326v1
- Date: Fri, 19 Dec 2025 08:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.301629
- Title: Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modelling
- Title(参考訳): 民主化パスコパイロット:全スライドビジョンランゲージモデリングのためのオープンパイプラインとデータセット
- Authors: Sander Moonemans, Sebastiaan Ram, Frédérique Meeuwsen, Carlijn Lems, Jeroen van der Laak, Geert Litjens, Francesco Ciompi,
- Abstract要約: 視覚言語モデル(VLM)は、病理学者の共同パイロットになる可能性がある。
合成命令生成のための標準化されたツールであるPolysomeを紹介する。
第二に、PolysomeをパブリックなHISTAIデータセットに適用し、大規模なHISTAIインストラクションチューニングデータセットであるHISTAI-Instructを生成する。
第3に,視覚的な質問応答が可能なVLMであるAntoni-を,HISTAI-Instructを使って訓練する。
- 参考スコア(独自算出の注目度): 3.216524144780036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have the potential to become co-pilots for pathologists. However, most VLMs either focus on small regions of interest within whole-slide images, provide only static slide-level outputs, or rely on data that is not publicly available, limiting reproducibility. Furthermore, training data containing WSIs paired with detailed clinical reports is scarce, restricting progress toward transparent and generalisable VLMs. We address these limitations with three main contributions. First, we introduce Polysome, a standardised tool for synthetic instruction generation. Second, we apply Polysome to the public HISTAI dataset, generating HISTAI-Instruct, a large whole-slide instruction tuning dataset spanning 24,259 slides and over 1.1 million instruction-response pairs. Finally, we use HISTAI-Instruct to train ANTONI-α, a VLM capable of visual-question answering (VQA). We show that ANTONI-α outperforms MedGemma on WSI-level VQA tasks of tissue identification, neoplasm detection, and differential diagnosis. We also compare the performance of multiple incarnations of ANTONI-α trained with different amounts of data. All methods, data, and code are publicly available.
- Abstract(参考訳): 視覚言語モデル(VLM)は、病理学者の共同パイロットになる可能性がある。
しかしながら、ほとんどのVLMは、全スライド画像内の小さな領域に焦点を当て、静的なスライドレベルの出力のみを提供するか、あるいは公開されていないデータに依存し、再現性を制限する。
さらに,WSIsと詳細な臨床報告を組み合わせたトレーニングデータはほとんどなく,透明で汎用的なVLMへの進展が抑制されている。
これらの制限に3つの主要な貢献で対処します。
まず,合成命令生成の標準化ツールであるPolysomeを紹介する。
第二に、PolysomeをパブリックなHISTAIデータセットに適用し、24,259のスライドと1100万以上の命令応答ペアにまたがる大規模な全スライド命令チューニングデータセットであるHISTAI-Instructを生成する。
最後に,HISTAI-Instructを使って視覚質問応答(VQA)が可能なVLMであるAntoni-αを訓練する。
組織同定,腫瘍検出,鑑別診断のWSIレベルVQAタスクにおいて,ANTONI-αはMedGemmaよりも優れていた。
また、異なる量のデータで訓練されたANTONI-αの複数のインカーネーションの性能を比較した。
すべてのメソッド、データ、コードは公開されています。
関連論文リスト
- Fleming-VL: Towards Universal Medical Visual Reasoning with Multimodal LLMs [7.542510160217106]
Fleming-VLは不均一なモーダルを包括的に理解するためのフレームワークである。
Fleming-VLは、医療用VQA、ビデオQA、医用画像理解など、複数のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-02T12:30:22Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - VividMed: Vision Language Model with Versatile Visual Grounding for Medicine [5.653365935720789]
医用視覚基盤を用いた視覚言語モデルVividMedを提案する。
我々のモデルはセマンティックセグメンテーションマスクとインスタンスレベルのバウンディングボックスの両方を生成することをサポートしている。
VividMedは、VQA(Visual Question Answering)やレポート生成など、他の一般的な下流タスクにも長けている。
論文 参考訳(メタデータ) (2024-10-16T15:54:11Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - MUSTANG: Multi-Stain Self-Attention Graph Multiple Instance Learning
Pipeline for Histopathology Whole Slide Images [1.127806343149511]
Whole Slide Images (WSIs)は、ギガピクセルサイズとアーティファクトの存在により、コンピュータビジョンの課題を提示している。
実世界の臨床データセットは、患者レベルにラベルがある異種WSIのセットとして提供され、アノテーションが不足している。
本稿では,エンドツーエンドのマルチスタンプ・セルフアテンション・グラフ(MUSTANG)マルチインスタンス学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-09-19T14:30:14Z) - Harvard Glaucoma Detection and Progression: A Multimodal Multitask
Dataset and Generalization-Reinforced Semi-Supervised Learning [16.465424871839627]
我々は、ラベルのないデータを活用するために擬似スーパーバイザと呼ばれる新しい半教師付き学習(SSL)モデルを開発した。
次に、Harvard Glaucoma Detection and Progression (Harvard-GDP)データセットをリリースします。
これは、3D OCTイメージングデータと、一般公開されている最初の緑内障進展予測データセットを備えた、最大の緑内障検出データセットである。
論文 参考訳(メタデータ) (2023-08-25T14:38:51Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。