論文の概要: VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection -- after competition results
- arxiv url: http://arxiv.org/abs/2605.22096v1
- Date: Thu, 21 May 2026 07:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.1416
- Title: VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection -- after competition results
- Title(参考訳): VISTA:レアパスロジーVCEイベント検出のための解剖学的デコードを用いた空間的および時間的基礎モデルの検証誘導統合
- Authors: Bo-Cheng Qiu, Fang-Ying Lin, Ming-Han Sun, Yu-Fan Lin, Chia-Ming Lee, Chih-Chung Hsu,
- Abstract要約: RAREVISIONタスクのためのメトリクス整合型マルチバックボーンフレームワークであるVISTAを提案する。
元々の公式な提出は、0.3530のmAP@0.5と0.3235のmAP@0.95を隠蔽テストで達成した。
競争の後、グローバルな粗い探索による局所しきい値の改善により、パフォーマンスは 0.3726 mAP@0.5 と 0.3431 mAP@0.95 に向上した。
- 参考スコア(独自算出の注目度): 9.248504942839382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capsule endoscopy event detection is challenging because clinically relevant findings are sparse, visually heterogeneous, and evaluated at the event level rather than by frame accuracy. We propose VISTA, a metric-aligned multi-backbone framework for the RAREVISION task. VISTA combines EndoFM-LV for temporal context and DINOv3 ViTL/16 for frame-level visual semantics, followed by a Diverse Head Ensemble (DHE), Validation-Guided Weighted Fusion (VGWF), and Anatomy-Aware Temporal Event Decoding (ATED). The original official submission achieved hidden-test temporal mAP@0.5 of 0.3530 and mAP@0.95 of 0.3235. After the competition, extending local threshold refinement with a global coarse search improved performance to 0.3726 mAP@0.5 and 0.3431 mAP@0.95, ranking Team ACVLab second in the post-competition evaluation.
- Abstract(参考訳): 臨床的に関連のある所見は, フレーム精度ではなく, 不均一で, 事象レベルで評価されるため, カプセル内視鏡による事象検出は困難である。
RAREVISIONタスクのためのメトリクス整合型マルチバックボーンフレームワークであるVISTAを提案する。
VISTAは、時間的文脈にEndoFM-LV、フレームレベルの視覚的意味論にDINOv3 ViTL/16を組み合わせ、その後にDiverse Head Ensemble(DHE)、Validation-Guided Weighted Fusion(VGWF)、Anatomy-Aware Temporal Event Decoding(ED)が続く。
元々の公式な提出は、0.3530のmAP@0.5と0.3235のmAP@0.95を隠蔽テストで達成した。
競争の後、グローバルな粗いサーチによる局所しきい値の改善により、パフォーマンスは0.3726 mAP@0.5と0.3431 mAP@0.95に向上し、チームACVLabは競争後の評価で2位となった。
関連論文リスト
- GALAR-TemporalNet v2: Anatomy-Guided Dual-Branch Temporal Classification with Bidirectional Mamba and Dual-Graph GCN for Video Capsule Endoscopy -- after competition results [2.9421642252347624]
極度のクラス不均衡、長距離時間依存性、病理-解剖的絡み合いという3つの課題に対処する階層的時間モデルを提案する。
我々のアーキテクチャは、局所モデリングのためのウィンドウ付き自己アテンション、グローバルフレーム関係のためのデュアルグラフGCN、選択境界コンテキスト符号化のための双方向マンバを組み合わせる。
論文 参考訳(メタデータ) (2026-05-21T09:15:43Z) - Training-inference input alignment outweighs framework choice in longitudinal retinal image prediction [3.0602131532925436]
近年の手法は, 生成複雑性の増大に向かっているが, この複雑さが要求される条件はいまだ不明である。
生成複雑性は予測可能なタスクの条件付き後続成分のエントロピーと一致し,全てのレシスタンスでトレーニング・推論入力アライメントが要求される。
我々は,この枠組みを5つの構成を対比して,立方体自己蛍光データセット上で検証した。
論文 参考訳(メタデータ) (2026-04-18T10:28:00Z) - ConvFormer3D-TAP: Phase/Uncertainty-Aware Front-End Fusion for Cine CMR View Classification Pipelines [0.879504058268139]
ConvFormer3D-TAPは3D畳み込みトークン化とマルチスケールの自己アテンションを統合し、心臓相と曖昧な側頭節間の堅牢性を高める。
ConvFormer3D-は150,974の臨床的に得られたシネ配列のコホートで、クラスごとのF1スコアによる検証精度が96%に達した。
これらの結果は、エンドツーエンドのcMRIにおけるビュールーティング、フィルタリング、品質制御のためのスケーラブルなフロントエンドとして、ConvFormer3DTAPをサポートする。
論文 参考訳(メタデータ) (2026-04-13T12:29:16Z) - VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection [39.50945484737978]
我々は、RARE-VISIONタスクを、純粋にフレームワイズな分類タスクではなく、メトリック整列イベント検出問題として定式化する。
フレームレベルの強い視覚的意味論のためのDINOv3 ViT-L/16と、局所的時間的文脈のためのEndoFM-LVの2つの相補的バックボーンを組み合わせた。
検証の短縮は、補完的なバックボーン、検証誘導融合、解剖学的に認識された時間的デコーディングが、すべてイベントレベルのパフォーマンスに寄与することを示している。
論文 参考訳(メタデータ) (2026-03-18T23:01:12Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Cross-Sample Augmented Test-Time Adaptation for Personalized Intraoperative Hypotension Prediction [45.67071315035565]
術中低血圧は外科的危険を伴うが、患者固有の変動性のために正確な予測は困難である。
CSA-TTA(Cross-Sample Augmented Test-Time Adaptation framework)を提案する。
提案したCSA-TTAを,現在最先端の時系列予測モデルと統合することで,VitalDBデータセットと実世界のインホスピタルデータセットの両方で評価する。
論文 参考訳(メタデータ) (2025-12-12T08:02:37Z) - AttentiveGRUAE: An Attention-Based GRU Autoencoder for Temporal Clustering and Behavioral Characterization of Depression from Wearable Data [46.262619407930266]
本稿では,時間的クラスタリングと縦型ウェアラブルデータによる結果の予測を目的とした,新しい注意型ゲートリカレントユニット(GRU)オートエンコーダであるAttentiveGRUAEを提案する。
372名(GLOBEM 2018-2019)の長期睡眠データからAttentiveGRUAEを評価する。
これは、クラスタリングの品質と抑うつの分類の両方において、ベースラインクラスタリング、ドメイン指向の自己教師付きモデル、および改善されたモデルよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-02T20:52:16Z) - A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - Weakly supervised segmentation of intracranial aneurysms using a novel 3D focal modulation UNet [0.5106162890866905]
本稿では,新しい3次元焦点変調UNetであるFocalSegNetを提案する。
UIA検出では偽陽性率は0.21で感度は0.80であった。
論文 参考訳(メタデータ) (2023-08-06T03:28:08Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。