論文の概要: MicroWorld: Empowering Multimodal Large Language Models to Bridge the Microscopic Domain Gap with Multimodal Attribute Graph
- arxiv url: http://arxiv.org/abs/2605.10120v1
- Date: Mon, 11 May 2026 07:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.605632
- Title: MicroWorld: Empowering Multimodal Large Language Models to Bridge the Microscopic Domain Gap with Multimodal Attribute Graph
- Title(参考訳): MicroWorld: マルチモーダルな大規模言語モデルを活用して,マルチモーダル属性グラフによるミクロなドメインギャップをブリッジする
- Authors: Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan,
- Abstract要約: MicroWorldは、大規模科学的イメージキャプチャーコーパスからマルチモーダル属性プロパティグラフを構築するフレームワークである。
MLLM推論をドメイン固有の微調整なしで拡張する。
MicroVQAベンチマークでは、MicroWorldはQwen3-VL-8B-Instructの推論性能を37.5%改善した。
- 参考スコア(独自算出の注目度): 28.472848113791162
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) show remarkable potential for scientific reasoning, yet their performance in specialized domains such as microscopy remains limited by the scarcity of domain-specific training data and the difficulty of encoding fine-grained expert knowledge into model parameters. To bridge the gap, we introduce MicroWorld, a framework that constructs a multimodal attributed property graph (MAPG) from large-scale scientific image--caption corpora and leverages it to augment MLLM reasoning at inference time without any domain-specific fine-tuning. MicroWorld extracts biomedical entities and relations via scispaCy or LLM-based triplet mining, aligns images and entities in a shared embedding space using Qwen3-VL-Embedding, and assembles a knowledge graph comprising approximately 111K nodes and 346K typed edges spanning eight relation categories. At inference time, a graph-augmented retrieval pipeline matches query entities to the MAPG and injects structured knowledge context into the MLLM prompt. On the MicroVQA benchmark, MicroWorld improves the reasoning performance of Qwen3-VL-8B-Instruct by 37.5%, outperforming GPT-5 by 13.0% to achieve a new state-of-the-art. Furthermore, it yields a 6.0% performance gain on the MicroBench benchmark. Extensive experiments demonstrate the enhanced generalization capability introduced by MicroWorld. A qualitative case study further reveals both the mechanisms through which structured knowledge improves reasoning and the failure modes that point to promising future directions. Code and data are available at https://github.com/ieellee/MicroWorld.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は科学的推論に顕著な可能性を示しているが、顕微鏡のような特殊な領域における性能は、ドメイン固有の訓練データの不足と、詳細な専門知識をモデルパラメータに符号化することの難しさによって制限されている。
このギャップを埋めるために、我々は大規模な科学的イメージキャプションコーパスからマルチモーダル属性プロパティグラフ(MAPG)を構築するフレームワークであるMicroWorldを導入する。
MicroWorld は、cispaCy または LLM ベースの三重項採掘を通じて、生物医学的な実体と関係を抽出し、Qwen3-VL-Embedding を用いて、共有埋め込み空間における画像と実体を整列させ、約111Kノードと8つの関係カテゴリにまたがる346K型エッジからなる知識グラフを組み立てる。
推論時に、グラフ拡張された検索パイプラインは、クエリエンティティをMAPGにマッチさせ、構造化知識コンテキストをMLLMプロンプトに注入する。
MicroVQAベンチマークでは、MicroWorldはQwen3-VL-8B-インストラクトの推論性能を37.5%改善し、GPT-5を13.0%上回り、新しい最先端を実現する。
さらに、MicroBenchベンチマークでは、パフォーマンスが6.0%向上している。
大規模な実験では、MicroWorldが導入した高度な一般化能力が実証されている。
定性的なケーススタディでは、構造化知識が推論を改善するメカニズムと、将来有望な方向性を示す障害モードの両方を明らかにしている。
コードとデータはhttps://github.com/ieellee/MicroWorldで公開されている。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - MM-OpenFGL: A Comprehensive Benchmark for Multimodal Federated Graph Learning [33.909733872102656]
MMAG(Multimodal-attributed graph)は、不均一なモジュラリティをグラフ構造に統合することにより、複雑な関係データをモデリングするための統一的なフレームワークを提供する。
MM-OpenFGLはMMFGLパラダイムを体系的に形式化し、厳密な評価を可能にする最初の総合ベンチマークである。
MM-OpenFGLは、7つのアプリケーションドメインにまたがる19のマルチモーダルデータセット、モダリティとトポロジの変動を計測する8つのシミュレーション戦略、6つのダウンストリームタスク、そしてモジュールAPIを通じて実装された57の最先端メソッドで構成されている。
論文 参考訳(メタデータ) (2026-01-29T23:59:13Z) - From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models [49.40724953627119]
本稿では,顕微鏡空間知能(MiSI, Microscopic Spatial Intelligence)の概念を紹介し, 目に見えない微視的実体の空間的関係を知覚し, 推論する能力について述べる。
この領域におけるビジョン・ランゲージ・モデル(VLM)の可能性を評価するため,系統的なベンチマーク・フレームワークであるMISI-Benchを提案する。
このフレームワークは163,000以上の質問応答対と約4,000の分子構造から派生した587,000の画像を備える。
論文 参考訳(メタデータ) (2025-12-11T18:00:21Z) - MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model [28.472848113791162]
MicroVQA++は3段階、大規模、高品質のVQAコーパスである。
ピアレビュー記事から得られた専門家公認のフィギュア・キャプション・ペアから、監督をブートストラップする。
HiCQA-Graphは、画像、キャプション、QA上の新しい異種グラフであり、NLIベースのテキストエンタテインメント、CLIPベースの視覚言語アライメント、エージェントシグナルを融合させる。
論文 参考訳(メタデータ) (2025-11-14T15:35:43Z) - The Next Layer: Augmenting Foundation Models with Structure-Preserving and Attention-Guided Learning for Local Patches to Global Context Awareness in Computational Pathology [23.32822092398391]
本稿では,予測と解釈性の向上を目的とした構造保存型注意誘導型MILアーキテクチャであるEAGLE-Netを提案する。
3種類のがんタイプ(10,260スライド)と7種類のがんタイプ(4,172スライド)を含む大規模な膵がんデータセットでベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-27T14:19:38Z) - Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文 参考訳(メタデータ) (2025-06-12T01:44:46Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - When Graph meets Multimodal: Benchmarking and Meditating on Multimodal Attributed Graphs Learning [28.555788831123447]
マルチモーダル分散グラフ(MAG)は、ノードにアタッチされたマルチモーダル属性を通じて広範囲にわたる知識を含む、現実世界のアプリケーションにおいてユビキタスである。
ソーシャルネットワークやeコマースといった多様な研究分野を前進させる可能性にもかかわらず、MAG表現学習(MAGRL)はいまだに未調査である。
我々はまず,テキスト属性と視覚属性の両方を持つ様々な領域からのキュレートされたグラフを特徴付ける,包括的なMAGベンチマークデータセットであるMAGBを提案する。
論文 参考訳(メタデータ) (2024-10-11T13:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。