論文の概要: WSI-Agents: A Collaborative Multi-Agent System for Multi-Modal Whole Slide Image Analysis
- arxiv url: http://arxiv.org/abs/2507.14680v1
- Date: Sat, 19 Jul 2025 16:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.000721
- Title: WSI-Agents: A Collaborative Multi-Agent System for Multi-Modal Whole Slide Image Analysis
- Title(参考訳): WSI-Agents:多モード全スライド画像解析のための協調型マルチエージェントシステム
- Authors: Xinheng Lyu, Yuci Liang, Wenting Chen, Meidan Ding, Jiaqi Yang, Guolin Huang, Daokun Zhang, Xiangjian He, Linlin Shen,
- Abstract要約: 全スライド画像(WSI)は、デジタル病理学において不可欠であり、様々な病理学課題におけるギガピクセルの組織解析を可能にする。
マルチモーダルWSI分析のための新しい協調型マルチエージェントシステムであるWSI-Agentsを提案する。
- 参考スコア(独自算出の注目度): 28.548748698432416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole slide images (WSIs) are vital in digital pathology, enabling gigapixel tissue analysis across various pathological tasks. While recent advancements in multi-modal large language models (MLLMs) allow multi-task WSI analysis through natural language, they often underperform compared to task-specific models. Collaborative multi-agent systems have emerged as a promising solution to balance versatility and accuracy in healthcare, yet their potential remains underexplored in pathology-specific domains. To address these issues, we propose WSI-Agents, a novel collaborative multi-agent system for multi-modal WSI analysis. WSI-Agents integrates specialized functional agents with robust task allocation and verification mechanisms to enhance both task-specific accuracy and multi-task versatility through three components: (1) a task allocation module assigning tasks to expert agents using a model zoo of patch and WSI level MLLMs, (2) a verification mechanism ensuring accuracy through internal consistency checks and external validation using pathology knowledge bases and domain-specific models, and (3) a summary module synthesizing the final summary with visual interpretation maps. Extensive experiments on multi-modal WSI benchmarks show WSI-Agents's superiority to current WSI MLLMs and medical agent frameworks across diverse tasks.
- Abstract(参考訳): 全スライド画像(WSI)は、デジタル病理学において不可欠であり、様々な病理学課題におけるギガピクセルの組織解析を可能にする。
近年のMLLM(Multi-modal large language model)の進歩により、自然言語によるマルチタスクWSI分析が可能になったが、タスク固有のモデルに比べて性能が劣っていることが多い。
医療における多目的性と精度のバランスをとるための有望なソリューションとして、協調型マルチエージェントシステムが登場したが、その潜在能力は、病理学固有の領域では未発見のままである。
このような問題に対処するために,我々はWSI-Agentsという,マルチモーダルWSI分析のための新しい協調型マルチエージェントシステムを提案する。
タスク割り当てモジュールは,(1)パッチとWSIレベルMLLMのモデル動物園を用いた専門家エージェントへのタスク割り当て,(2)内部の整合性チェックとドメイン固有モデルを用いた外部検証による正確性を保証する検証機構,(3)視覚的解釈マップによる最終概要を合成する要約モジュールである。
マルチモーダルなWSIベンチマークに関する大規模な実験は、WSI-Agentsが現在のWSI MLLMや医療エージェントフレームワークよりも、様々なタスクで優れていることを示している。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model [26.704101714550827]
本稿では、ROIレベルとWSIレベルのタスクを同時に処理できる汎用MLLMであるSmartPath-R1を提案する。
本フレームワークは,スケール依存型微調整とタスク認識型強化微調整を組み合わせることで,チェーン・オブ・ファシリテータの必要性を回避する。
論文 参考訳(メタデータ) (2025-07-23T08:09:42Z) - AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving [30.50203052125566]
Projectnameは汎用タスク解決のための階層的なマルチエージェントフレームワークである。
Projectnameは、複雑な目的を分解し、サブタスクを専門エージェントのチームに委譲する中央計画エージェントを特徴とする。
各サブエージェントは、汎用プログラミングおよび分析ツールと、幅広い現実世界固有のタスクに取り組む能力を備えている。
論文 参考訳(メタデータ) (2025-06-14T13:45:37Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Towards Multi-Objective High-Dimensional Feature Selection via
Evolutionary Multitasking [63.91518180604101]
本稿では,高次元特徴選択問題,すなわちMO-FSEMTのための新しいEMTフレームワークを開発する。
タスク固有の知識伝達機構は、各タスクの利点情報を活用するように設計され、高品質なソリューションの発見と効果的な伝達を可能にする。
論文 参考訳(メタデータ) (2024-01-03T06:34:39Z) - MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection
and Domain Knowledge-driven Pooling for Whole Slide Image Analysis [17.098951643252345]
深層学習領域における自動診断を支援するためにWSI(Whole Slide Image)が広く用いられている。
特殊設計したグラフ変換器によるWSI解析のための新しいマルチタスクフレームワーク(MulGT)を提案する。
論文 参考訳(メタデータ) (2023-02-21T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。