論文の概要: MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2511.11407v1
- Date: Fri, 14 Nov 2025 15:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.685196
- Title: MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
- Title(参考訳): MicroVQA++:マルチモーダル大言語モデルのための弱教師付きグラフを用いた高品質顕微鏡推論データセット
- Authors: Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan,
- Abstract要約: MicroVQA++は3段階、大規模、高品質のVQAコーパスである。
ピアレビュー記事から得られた専門家公認のフィギュア・キャプション・ペアから、監督をブートストラップする。
HiCQA-Graphは、画像、キャプション、QA上の新しい異種グラフであり、NLIベースのテキストエンタテインメント、CLIPベースの視覚言語アライメント、エージェントシグナルを融合させる。
- 参考スコア(独自算出の注目度): 28.472848113791162
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom's level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、バイオメディカルイメージングにますます応用されているが、大規模で高品質なトレーニングデータの不足により、顕微鏡の科学的理由が限定されている。
BIOMEDICAアーカイブから派生した3段階,大規模,高品質なVQAコーパスであるMicroVQA++を紹介する。
ステージ1は、査読された記事から得られた専門家公認のフィギュアキャプションペアからの監督をブートストラップする。
ステージ2では、画像、キャプション、QA上の新しい異種グラフであるHiCQA-Graphが適用され、NLIベースのテキストエンケーション、CLIPベースの視覚言語アライメント、一貫性のないサンプルを識別およびフィルタリングするためのエージェント信号が融合している。
ステージ3では、MLLM(MultiModal Large Language Model)エージェントを使用して、MCQ(Multi-choice Question)を生成し、続いて人間のスクリーニングを行う。
結果として得られたリリースは、大規模なトレーニングスプリットと、Bloomのレベルのハードサンプル分布がMicroVQAベンチマークを超えているヒューマンチェックテストスプリットで構成されている。
私たちの仕事が届ける
i) 専門家の文献とグラフに基づくフィルタリングと人間の精錬を結合した品質管理データセット
(ii)HiCQA-Graphは、クロスモーダル整合性フィルタリングのために共同でモデル(画像、キャプション、QA)をモデル化する最初のグラフである。
三 慎重なデータ構築により、4BスケールのMLLMが競合顕微鏡推論性能(例えば、GPT-5)に到達し、オープンソースMLLMの最先端性能を達成することができるという証拠。
レビュープロセスが終了すると、コードとデータセットがリリースされる。
関連論文リスト
- Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.764671395172401]
本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文 参考訳(メタデータ) (2025-09-23T09:23:31Z) - MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis [2.184404734602291]
MatQnAは、材料キャラクタリゼーション技術に特化して設計された最初のマルチモーダルベンチマークデータセットである。
我々は,LLMとHuman-in-the-loopバリデーションを組み合わせたハイブリッドアプローチを用いて,高品質な質問応答ペアを構築する。
予備的な評価結果は、最も先進的なマルチモーダルAIモデルは、すでに客観的な質問に対して90%近い精度を達成していることを示している。
論文 参考訳(メタデータ) (2025-09-14T16:23:48Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA [5.840467499436581]
バイオメディカルVQAのための新しい2レベルセマンティック一貫性制約フレームワークBioD2Cを提案する。
BioD2Cは、モデルと特徴レベルの両方で二重レベルのセマンティックインタラクションアライメントを実現し、モデルが質問に基づいて視覚的特徴を適応的に学習できるようにする。
本研究では,手動で修正した画像をフィルタリングし,質問と回答のペアをマルチモーダルな文脈で整列させることにより,過去のデータセットに固有のバイアスに対処する新たなデータセットであるBioVGQを確立する。
論文 参考訳(メタデータ) (2025-03-04T10:39:42Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。