論文の概要: MeniOmni: A Structured Multimodal Benchmark for Holistic Meniscus Injury Assessment
- arxiv url: http://arxiv.org/abs/2605.28161v1
- Date: Wed, 27 May 2026 08:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.903656
- Title: MeniOmni: A Structured Multimodal Benchmark for Holistic Meniscus Injury Assessment
- Title(参考訳): MeniOmni: 整形性半月板損傷評価のための構造化マルチモーダルベンチマーク
- Authors: Shurui Xu, Siqi Yang, Weiping Ding, Hui Wang, Mengzhen Fan, Yuyu Sun, Shuyan Li,
- Abstract要約: 半月板損傷評価のための構造化マルチモーダルベンチマークである Meni Omni を紹介する。
Meni Omniは746のマルチセンターMRI研究と3つのプラナーボリュームインプット、臨床優先事項、専門家が注釈を付けた臨床テキストから構成されている。
臨床関連性を良く反映するために,リスク対応順序評価と意味整合度尺度(Meni-Score)を提案する。
- 参考スコア(独自算出の注目度): 15.351725104554482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical diagnosis of meniscus injuries requires radiologists to integrate volumetric MRI evidence with patient context (e.g., sex, age, BMI) and to produce structured diagnostic reports. Existing knee MRI benchmarks are typically unimodal and rely on coarse labels, limiting their ability to evaluate holistic clinical reasoning. We introduce MeniOmni, a structured multimodal benchmark for meniscus injury assessment, consisting of 746 multi-center MRI studies with tri-planar volumetric inputs, Clinical Priors, and expert-annotated clinical text. MeniOmni supports two tasks: (1) fine-grained Stoller severity grading and (2) diagnostic report generation. We further propose risk-aware ordinal evaluation and a semantic consistency metric (Meni-Score) to better reflect clinical relevance. Baseline experiments show that incorporating Clinical Priors improves grading performance and reduces severe errors, highlighting the value of multimodal context for safer assessment. Code and data are available at https://github.com/ShuruiXu/MeniOmni.
- Abstract(参考訳): 半月板損傷の臨床的診断には、患者コンテキスト(例えば、性別、年齢、BMI)とボリュームMRIの証拠を統合し、構造化診断レポートを作成する必要がある。
既存の膝MRIベンチマークは、通常単調であり、粗いラベルに依存しており、総合的な臨床推論を評価する能力を制限する。
メニオムニ,メニオムニ,メニオムニ,メニオムニ,メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニオムニ, メニソウ, メニソウ, メニソウ, メニソウ, メニソウ, メニソウ, メニソウ, メニソウ, メニソウ
MeniOmni は,(1) きめ細かいStoller severity grading と (2) 診断報告生成の2つのタスクをサポートする。
さらに,臨床関連性をよく反映するリスク対応順序評価と意味的整合度尺度(Meni-Score)を提案する。
ベースライン実験では、臨床優先事項を組み込むことで、グレーディング性能が向上し、深刻なエラーを低減し、より安全な評価のためのマルチモーダルコンテキストの価値を強調している。
コードとデータはhttps://github.com/ShuruiXu/MeniOmni.comで入手できる。
関連論文リスト
- CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation [51.11942945171396]
従来の評価指標は、語彙重なり合いやエンティティマッチングの粗い尺度のみを提供する。
我々はCT-RATEとMerlinのベンチマークであるCT-FineBenchを提案し、CTレポートの微細な事実整合性を評価する。
我々のベンチマークは、綿密な質問回答(QA)ベースのプロセスによって構築されます。
論文 参考訳(メタデータ) (2026-04-27T03:32:46Z) - The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation [1.9655003184977389]
臨床画像コホートであるtextscFOR2107 と textscOASIS-3 の2値分類により,12個のオープンウェイト視覚言語モデル(VLM)を評価した。
これらの条件下では、より小さなVLMは、ニューロイメージングの文脈を導入すると最大58%のF1のゲインを示し、蒸留されたモデルは、桁違いに大きいものと競合するようになる。
論文 参考訳(メタデータ) (2026-03-30T12:58:10Z) - CURE: A Multimodal Benchmark for Clinical Understanding and Retrieval Evaluation [15.226811873305072]
臨床理解・検索評価ベンチマークについて紹介する。
CUREは、制御されたエビデンス設定の下で推論と検索を評価する。
閉鎖的, オープンな診断タスクにおいて, 異なるエビデンス収集パラダイムにまたがる最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2026-02-28T02:56:18Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - MeniMV: A Multi-view Benchmark for Meniscus Injury Severity Grading [7.152945592798872]
MeniMVは、3つの医療センターで750人の患者から3000の注釈付き膝MRI検査を受けている。
各試験は、前半月角と後半月角の4層(グレード0-3)重度ラベルで慎重に注釈付けされる。
論文 参考訳(メタデータ) (2025-12-20T17:22:55Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。