論文の概要: GALAR-TemporalNet v2: Anatomy-Guided Dual-Branch Temporal Classification with Bidirectional Mamba and Dual-Graph GCN for Video Capsule Endoscopy -- after competition results
- arxiv url: http://arxiv.org/abs/2605.22209v1
- Date: Thu, 21 May 2026 09:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.185198
- Title: GALAR-TemporalNet v2: Anatomy-Guided Dual-Branch Temporal Classification with Bidirectional Mamba and Dual-Graph GCN for Video Capsule Endoscopy -- after competition results
- Title(参考訳): GALAR-TemporalNet v2: Anatomy-Guided Dual-Branch Temporal Classification with bidirectional Mamba and Dual-Graph GCN for Video Capsule Endoscopy -- After competition results
- Authors: Jiye Won, Seangmin Lee, Soon Ki Jung,
- Abstract要約: 極度のクラス不均衡、長距離時間依存性、病理-解剖的絡み合いという3つの課題に対処する階層的時間モデルを提案する。
我々のアーキテクチャは、局所モデリングのためのウィンドウ付き自己アテンション、グローバルフレーム関係のためのデュアルグラフGCN、選択境界コンテキスト符号化のための双方向マンバを組み合わせる。
- 参考スコア(独自算出の注目度): 2.9421642252347624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Capsule Endoscopy (VCE) poses a challenging multi-label temporal classification problem, requiring simultaneous localization of 8 anatomical regions and detection of 9 pathological findings across tens of thousands of frames. We present GALAR-TemporalNet v2, a hierarchical temporal model that addresses three core challenges: extreme class imbalance, long-range temporal dependencies, and pathology--anatomy entanglement. Our architecture combines windowed self-attention for local modeling, a Dual-Graph GCN for global frame relationships, and Bidirectional Mamba for selective boundary context encoding. A novel anatomy prototype residual pathway decouples pathological deviation signals from normal organ appearance, and a frame-level GCN skip connection stabilizes training of visually confusable rare classes. The competition version, GALAR-TemporalNet, achieved an overall mAP@0.5 of 0.2644 and mAP@0.95 of 0.2353 on the RARE-VISION test set. Following the competition, the redesigned GALAR-TemporalNet v2 -- incorporating a restructured pathology branch, refined loss functions, and extended post-processing -- improved these results to mAP@0.5 of 0.3409 and mAP@0.95 of 0.3333.
- Abstract(参考訳): Video Capsule Endoscopy (VCE) は,8つの解剖学的領域の同時局在と数万フレームにわたる9つの病理所見の同時検出という,多ラベル時間分類の問題を引き起こす。
GALAR-TemporalNet v2は,超過度のクラス不均衡,長距離時間依存性,病理解剖的絡み合いという3つの課題に対処する階層的時間モデルである。
我々のアーキテクチャは、局所モデリングのためのウィンドウ付き自己アテンション、グローバルフレーム関係のためのデュアルグラフGCN、選択境界コンテキスト符号化のための双方向マンバを組み合わせる。
新しい解剖学的プロトタイプ残基経路は、正常な臓器外見から病理的な偏差信号を切り離し、フレームレベルGCNスキップ接続は、視覚的に不安定なレアクラスのトレーニングを安定化させる。
GALAR-TemporalNetはRARE-VISIONテストセットで0.2644のmAP@0.5と0.2353のmAP@0.95を達成した。
コンペの後、再設計されたGALAR-TemporalNet v2 -- 再構成された病理ブランチ、洗練された損失関数、拡張後処理 -- は、これらの結果を0.3409のmAP@0.5と0.3333のmAP@0.95に改善した。
関連論文リスト
- Differentiable latent structure discovery for interpretable forecasting in clinical time series [38.473526928012724]
連続時間多タスクガウス過程であるStructGPを導入し, 基本的不確かさを保ちながら, 相違構造学習と相違構造学習を組み合わせ, 相互依存の有向非巡回グラフ(DAG)を導出する。
LP-StructGPは,被験者特異的カップリングフィルタとソフトマックスゲーティング機構を用いて,患者間の進行パターンを捉えることで,StructGPを潜在経路に分割し,時間的に変化する軌跡を増大させる。
論文 参考訳(メタデータ) (2026-04-30T14:59:50Z) - Training-inference input alignment outweighs framework choice in longitudinal retinal image prediction [3.0602131532925436]
近年の手法は, 生成複雑性の増大に向かっているが, この複雑さが要求される条件はいまだ不明である。
生成複雑性は予測可能なタスクの条件付き後続成分のエントロピーと一致し,全てのレシスタンスでトレーニング・推論入力アライメントが要求される。
我々は,この枠組みを5つの構成を対比して,立方体自己蛍光データセット上で検証した。
論文 参考訳(メタデータ) (2026-04-18T10:28:00Z) - Neuro-Oracle: A Trajectory-Aware Agentic RAG Framework for Interpretable Epilepsy Surgical Prognosis [4.726777092009554]
トラジェクトリベースの分類器は、シングルポイントのResNet-50ベースラインで0.793に対して0.834から0.905のAUC値を達成する。
i) 3Dシームスコントラストエンコーダを用いたコンパクトな512次元トラジェクトリベクトルへの術前MRI変化の除去、(ii)近辺探索による人口アーカイブからの歴史的に類似した外科的トラジェクトリの検索、(iii)定量化を用いて検索された証拠に基づいた自然言語的予後を合成する3段階のフレームワークであるEmphNeuro-Oracleを提案する。
論文 参考訳(メタデータ) (2026-04-10T21:47:25Z) - VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection [39.50945484737978]
我々は、RARE-VISIONタスクを、純粋にフレームワイズな分類タスクではなく、メトリック整列イベント検出問題として定式化する。
フレームレベルの強い視覚的意味論のためのDINOv3 ViT-L/16と、局所的時間的文脈のためのEndoFM-LVの2つの相補的バックボーンを組み合わせた。
検証の短縮は、補完的なバックボーン、検証誘導融合、解剖学的に認識された時間的デコーディングが、すべてイベントレベルのパフォーマンスに寄与することを示している。
論文 参考訳(メタデータ) (2026-03-18T23:01:12Z) - How Much Temporal Modeling is Enough? A Systematic Study of Hybrid CNN-RNN Architectures for Multi-Label ECG Classification [1.8119312186036625]
本研究は,心電図分類における深層および累積再帰的アーキテクチャの必要性と臨床正当性を評価するものである。
単一のBiLSTM層に統合されたCNNは、予測性能とモデル複雑性の最も好ましいトレードオフを実現する。
これらの結果から,心電図信号の内在的時間構造とのアーキテクチャ的整合性は,再帰的深度を増大させるのではなく,頑健な性能を決定づける重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-25T17:29:13Z) - AttentiveGRUAE: An Attention-Based GRU Autoencoder for Temporal Clustering and Behavioral Characterization of Depression from Wearable Data [46.262619407930266]
本稿では,時間的クラスタリングと縦型ウェアラブルデータによる結果の予測を目的とした,新しい注意型ゲートリカレントユニット(GRU)オートエンコーダであるAttentiveGRUAEを提案する。
372名(GLOBEM 2018-2019)の長期睡眠データからAttentiveGRUAEを評価する。
これは、クラスタリングの品質と抑うつの分類の両方において、ベースラインクラスタリング、ドメイン指向の自己教師付きモデル、および改善されたモデルよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-02T20:52:16Z) - Topology-Constrained Learning for Efficient Laparoscopic Liver Landmark Detection [46.2391319253146]
肝のランドマークは腹腔鏡下肝手術中に外科医に重要な解剖学的ガイダンスを提供する。
TopoNetは腹腔鏡下肝ランドマーク検出のための新しいトポロジ制約学習フレームワークである。
我々のフレームワークは、スネーク・CNNデュアルパス・エンコーダを用いて、詳細なRGBテクスチャ情報と深さインフォームドトポロジ構造を同時に取得する。
論文 参考訳(メタデータ) (2025-07-01T07:35:36Z) - A topology-preserving three-stage framework for fully-connected coronary artery extraction [39.47027832777158]
冠動脈摘出術は,冠動脈疾患のコンピュータ診断に必須である。
完全連結冠状動脈抽出のためのトポロジー保存型3段階フレームワークを提案する。
このフレームワークには、血管のセグメンテーション、中心線再接続、血管再建の欠如が含まれる。
論文 参考訳(メタデータ) (2025-04-02T11:04:44Z) - KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。
我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。
提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文 参考訳(メタデータ) (2024-10-28T16:00:42Z) - Deep Learning for Vascular Segmentation and Applications in Phase
Contrast Tomography Imaging [33.23991248643144]
本稿では,多様な臓器にまたがる機械学習技術の現状を概説する。
我々のゴールは、このトピックの基礎を提供し、新しい画像モダリティで血管セグメンテーションに適用するための堅牢なベースラインモデルを特定することである。
HiP CTは、1ボクセルあたり20mmという前例のない解像度で、完全な臓器の3Dイメージングを可能にする。
論文 参考訳(メタデータ) (2023-11-22T11:15:38Z) - Weakly Supervised 3D Classification of Chest CT using Aggregated
Multi-Resolution Deep Segmentation Features [5.938730586521215]
CT画像の病巣分類は, 症例レベルのアノテーションが原因で, 局所性に乏しい。
マルチレゾリューション・セグメンテーション・フィーチャーマップを用いて学習した意味構造概念を活用する医療分類器を提案する。
論文 参考訳(メタデータ) (2020-10-31T00:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。