論文の概要: Singpath-VL Technical Report
- arxiv url: http://arxiv.org/abs/2602.09523v1
- Date: Tue, 10 Feb 2026 08:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.450111
- Title: Singpath-VL Technical Report
- Title(参考訳): Singpath-VL技術報告
- Authors: Zhen Qiu, Kaiwen Xiao, Zhengwei Lu, Xiangyu Liu, Lei Zhao, Hao Zhang,
- Abstract要約: 我々は,100万規模の画像記述データセットを合成する新しいパイプラインを開発した。
次に、多段階戦略を用いてQwen3-VL-4Bモデルを微調整し、特殊な細胞病理学MLLMを作成する。
得られたSingpath-VLモデルは、微細な形態知覚と細胞レベルでの診断分類において優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.034320667836027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Singpath-VL, a vision-language large model, to fill the vacancy of AI assistant in cervical cytology. Recent advances in multi-modal large language models (MLLMs) have significantly propelled the field of computational pathology. However, their application in cytopathology, particularly cervical cytology, remains underexplored, primarily due to the scarcity of large-scale, high-quality annotated datasets. To bridge this gap, we first develop a novel three-stage pipeline to synthesize a million-scale image-description dataset. The pipeline leverages multiple general-purpose MLLMs as weak annotators, refines their outputs through consensus fusion and expert knowledge injection, and produces high-fidelity descriptions of cell morphology. Using this dataset, we then fine-tune the Qwen3-VL-4B model via a multi-stage strategy to create a specialized cytopathology MLLM. The resulting model, named Singpath-VL, demonstrates superior performance in fine-grained morphological perception and cell-level diagnostic classification. To advance the field, we will open-source a portion of the synthetic dataset and benchmark.
- Abstract(参考訳): 頚椎細胞診におけるAIアシスタントの空き度を満たすために,視覚言語による大規模モデルであるSingpath-VLを提案する。
MLLM(Multi-modal large language model)の最近の進歩は、計算病理学の分野を著しく推進している。
しかし、これらの細胞病理学、特に頚部細胞学への応用は、主に大規模で高品質な注釈付きデータセットが不足しているため、未発見のままである。
このギャップを埋めるために、我々はまず、百万規模の画像記述データセットを合成する新しい3段階パイプラインを開発する。
このパイプラインは、複数の汎用MLLMを弱いアノテータとして利用し、コンセンサス融合と専門知識注入を通じて出力を洗練し、細胞形態の高忠実な記述を生成する。
このデータセットを用いて、多段階戦略を用いてQwen3-VL-4Bモデルを微調整し、特殊な細胞病理学MLLMを作成する。
得られたSingpath-VLモデルは、微細な形態知覚と細胞レベルでの診断分類において優れた性能を示す。
この分野を前進させるために、私たちは合成データセットとベンチマークの一部をオープンソース化します。
関連論文リスト
- Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics [3.7907528918903797]
大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T00:45:39Z) - SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics [14.008862724608415]
空間的トランスクリプトミクスの基礎モデルの構築は、膨大な複雑なデータソースの分析を大幅に強化することができる。
マルチスケールな空間トランスクリプトミクス基礎モデルであるSToFMを提案する。
SToFMはSTスライス毎にマルチスケール情報抽出を行い、マクロ、マイクロ、遺伝子規模の情報を集約するSTサブスライスセットを構築する。
SToFMは、組織領域セマンティックセグメンテーションや細胞型アノテーションなど、さまざまな下流タスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-15T14:47:01Z) - Benchmarking histopathology foundation models in a multi-center dataset for skin cancer subtyping [1.927195358774599]
大規模なドメイン内データセットの事前トレーニングは、履歴病理基盤モデル(FM)にタスクに依存しないデータ表現を学習する能力を与える。
計算病理学では、スライド全体の自動解析には、スライドのギガピクセルスケールのため、複数のインスタンス学習(MIL)フレームワークが必要である。
本研究は,MIL分類フレームワーク内のパッチレベルの特徴抽出器として,病理組織学的FMを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-06-23T14:12:16Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images [19.661619004001654]
本稿では,WSIを用いた病理組織学のエキスパートレベルのMLLMについて紹介する。
62.9%の受け入れ率でChatEXAONEPathを用いて病理像を診断できることを実証した。
提案モデルでは, 膵臓WSIsと臨床経過を種々のがんタイプから理解することができる。
論文 参考訳(メタデータ) (2025-04-17T15:33:17Z) - On Domain-Adaptive Post-Training for Multimodal Large Language Models [78.65220510401045]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - PathAsst: A Generative Foundation AI Assistant Towards Artificial
General Intelligence of Pathology [15.419350834457136]
病理学における診断・予測分析に革命をもたらすための多モード生成基盤AIアシスタントであるPathAsstを提案する。
PathAsstの開発には、データ取得、CLIPモデル適応、PathAsstのマルチモーダル生成機能のトレーニングの3つの重要なステップが含まれている。
PathAsstの実験結果は、病理診断と治療プロセスを改善するためにAIを利用した生成基盤モデルを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-05-24T11:55:50Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。