論文の概要: MedHorizon: Towards Long-context Medical Video Understanding in the Wild
- arxiv url: http://arxiv.org/abs/2605.06537v1
- Date: Thu, 07 May 2026 16:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.002761
- Title: MedHorizon: Towards Long-context Medical Video Understanding in the Wild
- Title(参考訳): MedHorizon: 野生での長いコンテキストの医療ビデオ理解を目指して
- Authors: Bodong Du, Bowen Liu, Yang Yu, Xinpeng Ding, Zhiheng Wu, Shuning Wang, Shuo Nie, Naiming Liu, Qifeng Chen, Yangqiu Song, Xiaomeng Li,
- Abstract要約: 実際の臨床検査には、フルプロデュースなビデオ理解が必要であることが多い。
既存のベンチマークでは、この証拠はすでに画像やショートクリップ、あるいは事前にセグメンテーションされたビデオを通じてローカライズされていると仮定することが多い。
MedHorizonは、長文医用ビデオ理解のためのWildベンチマークである。
- 参考スコア(独自算出の注目度): 78.79695798197447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical multimodal large language models (MLLMs) have advanced image understanding and short-video analysis, but real clinical review often requires full-procedure video understanding. Unlike general long videos, medical procedures contain highly redundant anatomical views, while decisive evidence is temporally sparse, spatially subtle, and context dependent. Existing benchmarks often assume this evidence has already been localized through images, short clips, or pre-segmented videos, leaving the retrieval-before-reasoning problem under-tested. We introduce MedHorizon, an in-the-wild benchmark for long-context medical video understanding. MedHorizon preserves 759 hours of full-length clinical procedures and provides 1,253 evidence-grounded multiple-choice questionsthat jointly evaluate sparse evidence understanding and multi-hop clinical reasoning. Its evidence is extremely sparse, with only 0.166% evidence frames on average, requiring models to search noisy procedural streams before interpreting and aggregating findings. We evaluate representative general-domain, medical-domain, and long-video MLLMs. The best model reaches only 41.1% accuracy, showing that current systems remain far from robust full-procedure understanding. Further analysis yields four key findings: performance does not scale reliably with more frames, evidence retrieval and clinical interpretation remain primary bottlenecks; these bottlenecks are rooted in weak procedural reasoning and attention drift under redundancy, and generic sampling methods only partially balances local detail with global coverage. MedHorizon provides a rigorous testbed for MLLMs that retrieve sparse evidence and reason over complete clinical workflows.
- Abstract(参考訳): 医療用マルチモーダル大言語モデル(MLLM)は高度な画像理解と短ビデオ解析を行うが、実際の臨床検査ではフルプロデューサの映像理解を必要とすることが多い。
一般的なロングビデオとは異なり、医療処置は極めて冗長な解剖学的見解を含み、決定的な証拠は時間的に疎く、空間的に微妙で、文脈に依存している。
既存のベンチマークでは、この証拠は画像、ショートクリップ、またはプレセグメンテーションされたビデオを通じて既にローカライズされており、検索前処理の問題はまだ検証されていないと仮定することが多い。
MedHorizonは、長文医用ビデオ理解のためのWildベンチマークである。
メドホライゾンは759時間のフル長の臨床試験を保存し、スパースエビデンス理解とマルチホップ臨床推論を共同で評価する1,253の根拠に基づく多重選択質問を提供する。
その証拠は極めてまばらで、平均で0.166%の証拠フレームしかなく、発見を解釈し集約する前に、ノイズの多い手続きストリームを探索する必要がある。
代表的汎用ドメイン,医療ドメイン,長ビデオMLLMを評価した。
最良のモデルは41.1%の精度にしか達せず、現在のシステムは厳密な全論理的理解からかけ離れていることを示している。
さらなる分析により、パフォーマンスはより多くのフレームで確実にスケールできないこと、エビデンス検索と臨床解釈は主要なボトルネックのままであり、これらのボトルネックは手続き的推論の弱さと冗長下での注意の漂流に根ざしており、ジェネリックサンプリング手法は局所的な詳細とグローバルなカバレッジとを部分的にバランスさせるだけである。
MedHorizon は MLLM のための厳格なテストベッドを提供する。
関連論文リスト
- Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos [83.01543151239254]
我々は、診断駆動型CEビデオ要約という新しいタスクを定義する。
VideoCAPは、診断駆動アノテーションを備えた最初のCEデータセットである。
DiCEはクリニックにインスパイアされたフレームワークで、標準的なCE読み込みワークフローを反映している。
論文 参考訳(メタデータ) (2026-04-23T16:07:51Z) - Scaling Video Pretraining for Surgical Foundation Models [51.92777479821822]
SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。
内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
論文 参考訳(メタデータ) (2026-03-31T16:31:25Z) - MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling [51.31633278218137]
MedScope(メドスコープ)は、ロングフォームなプロシージャを追求する粗大な証拠を実行する、ツールを用いた臨床ビデオ推論モデルである。
ClinVideoSuiteは、エビデンス中心の、きめ細かい臨床ビデオスイートだ。
フルできめ細かいビデオ理解ベンチマークでは、MedScopeは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T09:47:02Z) - Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening [8.010714901985898]
思春期特発性強皮症(AIS)は,早期発見により進行を緩和できる脊髄変形である。
現在のスクリーニング手法は主観的であり、スケールが難しく、専門的な専門知識に依存している。
ビデオベースの歩行分析は、有望な代替手段を提供するが、現在のデータセットとメソッドは、しばしばデータ漏洩に悩まされる。
ScoliGaitは、トレーニング用の1,572の歩行ビデオクリップと、テスト用の300の完全に独立したクリップからなる、新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2026-02-06T14:44:22Z) - A Specialized Large Language Model for Clinical Reasoning and Diagnosis in Rare Diseases [22.51015369266496]
RareSeek R1は、ノイズや重なり合う表現型の下で、技術精度、堅牢な一般化、安定性の状態を達成している。
この研究は、診断を短縮し、聴覚的、臨床的に翻訳可能な意思決定支援を可能にする、物語第一の知識統合推論パラダイムを前進させる。
論文 参考訳(メタデータ) (2025-11-18T16:29:19Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos [0.0]
医師は消化器内視鏡(英語版) (CE) を非侵襲的、非外科的処置として使用し、全消化管 (GI) を検査する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
論文 参考訳(メタデータ) (2021-10-18T07:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。