論文の概要: MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology
- arxiv url: http://arxiv.org/abs/2511.20490v1
- Date: Tue, 25 Nov 2025 16:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.558901
- Title: MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology
- Title(参考訳): MTBBench: 腫瘍学におけるマルチモーダルシークエンシャル臨床意思決定ベンチマーク
- Authors: Kiril Vasilev, Alexandre Misrahi, Eeshaan Jain, Phil F Cheng, Petros Liakopoulos, Olivier Michielin, Michael Moor, Charlotte Bunne,
- Abstract要約: LLM(Multimodal Large Language Models)は、バイオメディカル推論の可能性を保っているが、現在のベンチマークでは実際の臨床推論の複雑さを捉えていない。
MTBベンチ(MTBBench)は, MTB型意思決定を模擬したエージェントベンチマークであり, 臨床的に困難であり, マルチモーダルで, 縦断的な腫瘍学的な疑問を呈する。
地上の真実のアノテーションは、共同開発したアプリを通じて臨床医によって検証され、臨床関連性を保証する。
- 参考スコア(独自算出の注目度): 37.556090746806845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (LLMs) hold promise for biomedical reasoning, but current benchmarks fail to capture the complexity of real-world clinical workflows. Existing evaluations primarily assess unimodal, decontextualized question-answering, overlooking multi-agent decision-making environments such as Molecular Tumor Boards (MTBs). MTBs bring together diverse experts in oncology, where diagnostic and prognostic tasks require integrating heterogeneous data and evolving insights over time. Current benchmarks lack this longitudinal and multimodal complexity. We introduce MTBBench, an agentic benchmark simulating MTB-style decision-making through clinically challenging, multimodal, and longitudinal oncology questions. Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance. We benchmark multiple open and closed-source LLMs and show that, even at scale, they lack reliability -- frequently hallucinating, struggling with reasoning from time-resolved data, and failing to reconcile conflicting evidence or different modalities. To address these limitations, MTBBench goes beyond benchmarking by providing an agentic framework with foundation model-based tools that enhance multi-modal and longitudinal reasoning, leading to task-level performance gains of up to 9.0% and 11.2%, respectively. Overall, MTBBench offers a challenging and realistic testbed for advancing multimodal LLM reasoning, reliability, and tool-use with a focus on MTB environments in precision oncology.
- Abstract(参考訳): LLM(Multimodal Large Language Models)は、バイオメディカル推論を約束するが、現在のベンチマークでは実際の臨床ワークフローの複雑さを捉えることができない。
既存の評価は、主に、分子腫瘍ボード(MTBs)のようなマルチエージェントの意思決定環境を見越して、一助的、非テクスチュアライズされた質問応答を評価する。
MTBは腫瘍学の様々な専門家を集結させ、診断と予後のタスクは異種データの統合と時間の経過とともに洞察の進化を必要とする。
現在のベンチマークでは、この長手およびマルチモーダルな複雑さが欠落している。
MTBベンチ(MTBBench)は, MTB型意思決定を模擬したエージェントベンチマークであり, 臨床的に困難であり, マルチモーダルで, 縦断的な腫瘍学的な疑問を呈する。
地上の真実のアノテーションは、共同開発したアプリを通じて臨床医によって検証され、臨床関連性を保証する。
複数のオープンソースとクローズドソースのLCMをベンチマークし、大規模でも信頼性が欠如していることを示します。
これらの制限に対処するため、MTBBenchは、マルチモーダルおよび長手推論を強化する基礎モデルベースのツールを備えたエージェントフレームワークを提供することで、それぞれ9.0%と11.2%のタスクレベルのパフォーマンス向上を実現している。
全体として、MTBBenchはマルチモーダルLCM推論、信頼性、ツール使用の進歩に挑戦的で現実的なテストベッドを提供する。
関連論文リスト
- OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - ClusMFL: A Cluster-Enhanced Framework for Modality-Incomplete Multimodal Federated Learning in Brain Imaging Analysis [28.767460351377462]
脳画像解析の文脈では、モダリティの不完全性は重要な課題である。
本稿では,機能クラスタリングを利用した新しいMFLフレームワークであるClusMFLを提案する。
ClusMFLは、様々なモダリティの不完全性のレベルにまたがる様々なベースライン手法と比較して、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-02-14T09:33:59Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Examining Modality Incongruity in Multimodal Federated Learning for
Medical Vision and Language-based Disease Detection [7.515840210206994]
異なるクライアントにおけるモダリティの欠如の影響は、モダリティの不整合(modality incongruity)とも呼ばれるが、非常に見過ごされている。
本稿では、初めて、モダリティの不整合の影響を解析し、参加するクライアント間のデータ不均一性との関係を明らかにする。
論文 参考訳(メタデータ) (2024-02-07T22:16:53Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。