論文の概要: VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection
- arxiv url: http://arxiv.org/abs/2603.18343v1
- Date: Wed, 18 Mar 2026 23:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.876064
- Title: VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection
- Title(参考訳): VISTA: 局所的・時間的基礎モデルと解剖学的復号化による局所的VCEイベント検出のバリデーションガイドによる統合
- Authors: Bo-Cheng Qiu, Yu-Fan Lin, Yu-Zhe Pien, Chia-Ming Lee, Fu-En Yang, Yu-Chiang Frank Wang, Chih-Chung Hsu,
- Abstract要約: 我々は、RARE-VISIONタスクを、純粋にフレームワイズな分類タスクではなく、メトリック整列イベント検出問題として定式化する。
フレームレベルの強い視覚的意味論のためのDINOv3 ViT-L/16と、局所的時間的文脈のためのEndoFM-LVの2つの相補的バックボーンを組み合わせた。
検証の短縮は、補完的なバックボーン、検証誘導融合、解剖学的に認識された時間的デコーディングが、すべてイベントレベルのパフォーマンスに寄与することを示している。
- 参考スコア(独自算出の注目度): 39.50945484737978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capsule endoscopy event detection is challenging because diagnostically relevant findings are sparse, visually heterogeneous, and embedded in long, noisy video streams, while evaluation is performed at the event level rather than by frame accuracy alone. We therefore formulate the RARE-VISION task as a metric-aligned event detection problem instead of a purely frame-wise classification task. Our framework combines two complementary backbones, EndoFM-LV for local temporal context and DINOv3 ViT-L/16 for strong frame-level visual semantics, followed by a Diverse Head Ensemble, Validation-Guided Hierarchical Fusion, and Anatomy-Aware Temporal Event Decoding. The fusion stage uses validation-derived class-wise model weighting, backbone weighting, and probability calibration, while the decoding stage applies temporal smoothing, anatomical constraints, threshold refinement, and per-label event generation to produce stable event predictions. Validation ablations indicate that complementary backbones, validation-guided fusion, and anatomy-aware temporal decoding all contribute to event-level performance. On the official hidden test set, the proposed method achieved an overall temporal mAP@0.5 of 0.3530 and temporal mAP@0.95 of 0.3235.
- Abstract(参考訳): 診断に関連のある発見は、フレーム精度だけでではなく、イベントレベルで評価される一方で、疎く、視覚的に異質であり、長いノイズの多いビデオストリームに埋め込まれているため、カプセル内視鏡によるイベント検出は困難である。
したがって、RARE-VISIONタスクは、純粋にフレームワイズな分類タスクではなく、メトリック整列イベント検出問題として定式化する。
フレームレベルの強い視覚的意味論のためのDINOv3 ViT-L/16と、局所的時間的文脈のためのEndoFM-LVと、強いフレームレベルの視覚的意味論のためのDINOv3 ViT-L/16の2つの相補的なバックボーンを結合し、その後にDiverse Head Ensemble、Validation-Guided Hierarchical Fusion、Anatomy-Aware Temporal Event Decodingが続く。
融合段階は、検証から派生したクラスワイドモデル重み付け、バックボーン重み付け、確率キャリブレーションを使用し、復号段階は、時間スムージング、解剖学的制約、しきい値改善、ラベルごとのイベント生成を適用して安定したイベント予測を生成する。
検証の短縮は、補完的なバックボーン、検証誘導融合、解剖学的に認識された時間的デコーディングが、すべてイベントレベルのパフォーマンスに寄与することを示している。
公式な隠れテストセットでは、提案手法は全体の時間的mAP@0.5が0.3530、時間的mAP@0.95が0.3235である。
関連論文リスト
- Benchmarking LLM Summaries of Multimodal Clinical Time Series for Remote Monitoring [6.415950855665798]
大規模言語モデル(LLMs)は遠隔治療監視時系列の流動的な臨床要約を生成することができる。
既存の評価指標は主に意味的類似性と言語的品質に重点を置いており、事象レベルの正確性はほとんど測定されていない。
本稿では,TIHM(Technology-Integrated Health Management)-1.5認知症モニタリングデータセットを用いたマルチモーダル時系列要約のためのイベントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T07:33:11Z) - LEFT: Learnable Fusion of Tri-view Tokens for Unsupervised Time Series Anomaly Detection [53.191369031661885]
教師なし時系列異常検出は、アノテーションの可用性を前提とせず、異常なタイムスタンプを識別するモデルを構築することを目的としている。
本稿では,非教師付きTSADフレームワークであるLearnable Fusion of Tri-view Tokens(LEFT)について述べる。
実世界のベンチマーク実験では、LEFTはSOTAベースラインに対して最高の検出精度を示し、FLOPの5倍、トレーニングの8倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-09T13:33:49Z) - E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T02:16:00Z) - TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification [10.329406702659123]
造影CT(Contrat-enhanced Computed Tomography)における腫瘍の分画と診断は,造影剤の生理的動態に大きく依存している。
既存のディープラーニングアプローチは、欠落した相を欠落した独立したチャネルとして扱い、血行動態の本質的な時間的連続性を無視している。
本稿では,連続時間短縮曲線の欠落点として欠落点を再定義する新しい物理認識フレームワークであるTime Attenuated Representation Disentanglement (TARDis)を提案する。
論文 参考訳(メタデータ) (2025-12-04T08:44:50Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Periodontal Bone Loss Analysis via Keypoint Detection With Heuristic Post-Processing [1.918319133902462]
本研究は, 歯周骨の喪失跡, 関連条件, ステージングの自動検出のための深層学習フレームワークとアノテーション手法を提案する。
192の根尖部ドメインが収集され,段階的PRC法で注釈され,疾患の有無や範囲に関わらず,関連するランドマークをラベル付けした。
本稿では,キーポイントと歯のバウンダリを協調する後処理モジュールについて,補助インスタンスセグメンテーションモデルを用いて提案する。
論文 参考訳(メタデータ) (2025-03-05T00:34:29Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Abnormal Event Detection via Hypergraph Contrastive Learning [54.80429341415227]
異常事象検出は多くの実アプリケーションにおいて重要な役割を果たす。
本稿では,分散異種情報ネットワークにおける異常事象検出問題について検討する。
AEHCLと呼ばれる新しいハイパーグラフコントラスト学習法が,異常事象のパターンをフルに捉えるために提案されている。
論文 参考訳(メタデータ) (2023-04-02T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。