論文の概要: Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2603.12458v1
- Date: Thu, 12 Mar 2026 21:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.76741
- Title: Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs
- Title(参考訳): ショートカットの断片化: LLMにおけるマルチホップ医療推論のためのトポロジ規則化ベンチマーク
- Authors: Xing Zi, Xinying Zhou, Jinghao Xiao, Catarina Moreira, Mukesh Prasad,
- Abstract要約: 我々は,深部診断推論を厳格に評価するために設計された10,558のマルチホップ臨床質問のベンチマークであるShatterMed-QAを紹介した。
我々のフレームワークは、新しい$k$-Shatteringアルゴリズムを用いて、トポロジ規則化された医療知識グラフを構築する。
21個のLLMの総合的な評価は、我々のマルチホップタスクにおいて大きな性能劣化を示す。
- 参考スコア(独自算出の注目度): 4.647901209920043
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Large Language Models (LLMs) achieve expert-level performance on standard medical benchmarks through single-hop factual recall, they severely struggle with the complex, multi-hop diagnostic reasoning required in real-world clinical settings. A primary obstacle is "shortcut learning", where models exploit highly connected, generic hub nodes (e.g., "inflammation") in knowledge graphs to bypass authentic micro-pathological cascades. To address this, we introduce ShatterMed-QA, a bilingual benchmark of 10,558 multi-hop clinical questions designed to rigorously evaluate deep diagnostic reasoning. Our framework constructs a topology-regularized medical Knowledge Graph using a novel $k$-Shattering algorithm, which physically prunes generic hubs to explicitly sever logical shortcuts. We synthesize the evaluation vignettes by applying implicit bridge entity masking and topology-driven hard negative sampling, forcing models to navigate biologically plausible distractors without relying on superficial elimination. Comprehensive evaluations of 21 LLMs reveal massive performance degradation on our multi-hop tasks, particularly among domain-specific models. Crucially, restoring the masked evidence via Retrieval-Augmented Generation (RAG) triggers near-universal performance recovery, validating ShatterMed-QA's structural fidelity and proving its efficacy in diagnosing the fundamental reasoning deficits of current medical AI. Explore the dataset, interactive examples, and full leaderboards at our project website: https://shattermed-qa-web.vercel.app/
- Abstract(参考訳): LLM(Large Language Models)は、シングルホップのファクトリコールを通じて、標準的な医療ベンチマークで専門家レベルのパフォーマンスを達成する一方で、現実の臨床環境で必要とされる複雑でマルチホップな診断推論に苦慮している。
主要な障害は「ショートカット学習(Shortcut learning)」であり、モデルは知識グラフにおける高連結で汎用的なハブノード(例:「炎症」)を利用して、真正のマイクロ病理カスケードをバイパスする。
そこで本研究では,深部診断推論を厳格に評価する目的で,10,558のマルチホップ臨床質問のバイリンガルベンチマークであるShatterMed-QAを紹介する。
本フレームワークは,論理的ショートカットを明示的に除去する汎用ハブを物理的に具現化する新しい$k$-Shatteringアルゴリズムを用いて,トポロジ規則化された医用知識グラフを構築する。
我々は,暗黙のブリッジ・エンティティ・マスクとトポロジー駆動型ハード・ネガティブ・サンプリングを適用し,表面除去に頼らずに生物学的に可塑性なイントラクタの操作を強制的に行なわせることで,評価ヴィグネットを合成する。
21個のLLMの総合的な評価は、特にドメイン固有モデルにおいて、マルチホップタスクにおける大幅な性能劣化を示す。
重要なことに、Retrieval-Augmented Generation (RAG)によるマスクされた証拠の復元は、ほぼユニバーサルなパフォーマンス回復を引き起こし、ShatterMed-QAの構造的忠実性を検証し、現在の医療AIの根本的な障害を診断する効果を証明している。
プロジェクトのWebサイトには、データセット、インタラクティブな例、完全なリーダボードが紹介されている。
関連論文リスト
- Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization [6.821738567680833]
PathReasonerは,WSI推論の最初の大規模データセットである。
PathReasoner-R1は、教師付き微調整と推論指向の強化学習を相乗し、構造化されたチェーン・オブ・シント機能を注入する。
実験により、PathReasoner-R1はPathReasonerと公開ベンチマークの両方で、様々な画像スケールで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-01-29T12:21:16Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts [4.809421212365958]
中国の医療ファクトチェックのための新しいベンチマークであるMedFactを紹介する。
さまざまな現実世界のテキストからキュレートされた2,116のエキスパートアノテーション付きインスタンスで構成されている。
専門家のフィードバックによってAI駆動のマルチ基準フィルタリングプロセスが洗練される、ハイブリッドAI-ヒューマンフレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-15T20:46:21Z) - Tree-of-Reasoning: Towards Complex Medical Diagnosis via Multi-Agent Reasoning with Evidence Tree [14.013981070330153]
複雑なシナリオを扱うために設計された新しいマルチエージェントフレームワークであるTree-of-Reasoning (ToR)を提案する。
具体的には、大規模言語モデル(LLM)の推論経路とそれに対応する臨床証拠を明確に記録できるツリー構造を導入する。
同時に,マルチエージェント意思決定の整合性を確保するためのクロスバリデーション機構を提案する。
論文 参考訳(メタデータ) (2025-08-05T03:31:28Z) - Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search [41.81463064393831]
マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。
我々は、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。
我々は,難易度の高いマルチタスク医療推論データセットであるMMRPと,カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。