論文の概要: Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos
- arxiv url: http://arxiv.org/abs/2604.21814v1
- Date: Thu, 23 Apr 2026 16:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.71195
- Title: Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos
- Title(参考訳): 分枝型診断:超長径カプセル内視鏡撮影における臨床応用コンテキスト
- Authors: Bowen Liu, Li Yang, Shanshan Song, Mingyu Tang, Zhifang Gao, Qifeng Chen, Yangqiu Song, Huimin Chen, Xiaomeng Li,
- Abstract要約: 我々は、診断駆動型CEビデオ要約という新しいタスクを定義する。
VideoCAPは、診断駆動アノテーションを備えた最初のCEデータセットである。
DiCEはクリニックにインスパイアされたフレームワークで、標準的なCE読み込みワークフローを反映している。
- 参考スコア(独自算出の注目度): 83.01543151239254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capsule endoscopy (CE) enables non-invasive gastrointestinal screening, but current CE research remains largely limited to frame-level classification and detection, leaving video-level analysis underexplored. To bridge this gap, we introduce and formally define a new task, diagnosis-driven CE video summarization, which requires extracting key evidence frames that covers clinically meaningful findings and making accurate diagnoses from those evidence frames. This setting is challenging because diagnostically relevant events are extremely sparse and can be overwhelmed by tens of thousands of redundant normal frames, while individual observations are often ambiguous due to motion blur, debris, specular highlights, and rapid viewpoint changes. To facilitate research in this direction, we introduce VideoCAP, the first CE dataset with diagnosis-driven annotations derived from real clinical reports. VideoCAP comprises 240 full-length videos and provides realistic supervision for both key evidence frame extraction and diagnosis. To address this task, we further propose DiCE, a clinician-inspired framework that mirrors the standard CE reading workflow. DiCE first performs efficient candidate screening over the raw video, then uses a Context Weaver to organize candidates into coherent diagnostic contexts that preserve distinct lesion events, and an Evidence Converger to aggregate multi-frame evidence within each context into robust clip-level judgments. Experiments show that DiCE consistently outperforms state-of-the-art methods, producing concise and clinically reliable diagnostic summaries. These results highlight diagnosis-driven contextual reasoning as a promising paradigm for ultra-long CE video summarization.
- Abstract(参考訳): カプセル内視鏡(CE)は非侵襲的消化管スクリーニングを可能にするが、現在のCE研究はフレームレベルの分類と検出に限られており、ビデオレベルの分析は未調査のままである。
このギャップを埋めるために、我々は、臨床的に有意な発見をカバーし、それらのエビデンスフレームから正確な診断を行う重要なエビデンスフレームを抽出する必要がある、診断駆動のCEビデオ要約という新しいタスクを導入し、正式に定義する。
この設定は、診断に関係する事象が極めて希少であり、何万もの冗長な通常のフレームに圧倒される可能性があるため、困難である。
この方向の研究を容易にするために,本研究では,臨床報告から得られた診断駆動アノテーションを用いたCEデータセットであるVideoCAPを紹介する。
VideoCAPは240本のフル長ビデオで構成され、重要なエビデンスフレームの抽出と診断の両方を現実的に監視する。
この課題に対処するために、我々は、標準的なCE読解ワークフローを反映したクリニックにインスパイアされたフレームワークであるDiCEをさらに提案する。
DiCEはまず、生のビデオ上で効率的な候補スクリーニングを行い、次にContext Weaverを使用して、個別の病変イベントを保存するコヒーレントな診断コンテキストに、Evidence Convergerを使用して、各コンテキスト内の複数のフレーム証拠を堅牢なクリップレベルの判断に集約する。
実験により、DCEは最先端の手法を一貫して上回り、簡潔で臨床的に信頼性の高い診断サマリーを生み出していることが示された。
これらの結果は,診断駆動型文脈推論が,超長期CEビデオ要約に期待できるパラダイムであることを示している。
関連論文リスト
- Diagnosable ColBERT: Debugging Late-Interaction Retrieval Models Using a Learned Latent Space as Reference [1.6904475483445454]
臨床知識に基づく参照潜在空間にColBERTトークンを埋め込むフレームワークを提案する。
このアライメントは、ドキュメントエンコーディングを、モデルが何を理解しているかの検査可能な証拠に変える。
論文 参考訳(メタデータ) (2026-04-21T15:19:03Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling [51.31633278218137]
MedScope(メドスコープ)は、ロングフォームなプロシージャを追求する粗大な証拠を実行する、ツールを用いた臨床ビデオ推論モデルである。
ClinVideoSuiteは、エビデンス中心の、きめ細かい臨床ビデオスイートだ。
フルできめ細かいビデオ理解ベンチマークでは、MedScopeは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T09:47:02Z) - Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening [8.010714901985898]
思春期特発性強皮症(AIS)は,早期発見により進行を緩和できる脊髄変形である。
現在のスクリーニング手法は主観的であり、スケールが難しく、専門的な専門知識に依存している。
ビデオベースの歩行分析は、有望な代替手段を提供するが、現在のデータセットとメソッドは、しばしばデータ漏洩に悩まされる。
ScoliGaitは、トレーニング用の1,572の歩行ビデオクリップと、テスト用の300の完全に独立したクリップからなる、新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2026-02-06T14:44:22Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos [0.0]
医師は消化器内視鏡(英語版) (CE) を非侵襲的、非外科的処置として使用し、全消化管 (GI) を検査する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
論文 参考訳(メタデータ) (2021-10-18T07:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。