論文の概要: ST-ColoNet: Spatio-Temporal Colon Segment Recognition via Hybrid Attention and Edge-Guided Feature Learning
- arxiv url: http://arxiv.org/abs/2605.28119v1
- Date: Wed, 27 May 2026 08:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.872809
- Title: ST-ColoNet: Spatio-Temporal Colon Segment Recognition via Hybrid Attention and Edge-Guided Feature Learning
- Title(参考訳): ST-ColoNet:ハイブリッドアテンションとエッジガイド型特徴学習による時空間コロニーセグメント認識
- Authors: Ziyi Wang, Zhengjie Zhang, Jingsheng Gao, Dahong Qian, Suncheng Xiang,
- Abstract要約: 既存の自動認識手法は、時間的情報を完全に活用することなく、大腸内視鏡画像のみを使用するため、性能は低下した。
時空間ネットワーク(ST-ColoNet)を用いた2段階の深層学習フレームワークColo-Segment Recognitionを提案する。
我々は,コロセグメンテーション認識のタスクにおいて最先端の性能を達成でき,精度が81.0%,F1スコアが70.7%であることを示す。
- 参考スコア(独自算出の注目度): 17.261262541688307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colo-segment recognition in colonoscopy videos is a key requirement for many downstream tasks, but existing automatic recognition methods only use colonoscopy images without fully exploiting the use of temporal information, leading to poor performance. Additionally, relevant public video-based datasets are in scarcity. To tackle this problem, we curate and release a labeled dataset specifically for the task of colo-segment recognition. In addition, we propose a two-stage deep learning-based framework, Colo-Segment Recognition via SpatioTemporal Network (ST-ColoNet), for the task of colo-segment recognition from colonoscopy videos which includes the Colorlaus module that uses metric learning to optimize edge-mediated spatial feature extraction, as well as the Full-Temp module which combines three self-attention patterns to better approximate full self-attention on long colonoscopy sequences and optimize temporal feature aggregation. Through extensive ablation experiments, we show that our framework is capable of achieving state-of-the-art performance on the task of colo-segment recognition, achieving an accuracy of 81.0% and F1-score of 70.7%, which is a tremendous improvement over state-of-the-art methods.
- Abstract(参考訳): 大腸内視鏡画像におけるコロセグメンション認識は多くの下流作業において重要な要件であるが、既存の自動認識手法では時間的情報を完全に活用せずに大腸内視鏡画像のみを使用するため、性能は低下する。
さらに、関連するパブリックビデオベースのデータセットが不足している。
この問題に対処するため,ラベル付きデータセットを収集・リリースし,コロセグメンテーション認識のタスクに用いた。
さらに,2段階の深層学習に基づくフレームワークであるSpaatioTemporal Network (ST-ColoNet) を提案する。これは,エッジを介する空間的特徴抽出の最適化にメトリクス学習を利用するColorlausモジュールと,3つの自己認識パターンを組み合わせたFull-Tempモジュールを併用し,長期的大腸内視鏡シークエンスにおける完全自己認識の最適化と時間的特徴集約の最適化を行う。
大規模なアブレーション実験を通じて,我々のフレームワークは,コロセグメンテーション認識のタスクにおいて最先端の性能を達成でき,精度が81.0%,F1スコアが70.7%であることを示す。
関連論文リスト
- Contrastive Learning under Noisy Temporal Self-Supervision for Colonoscopy Videos [8.245519663146586]
ポリープ・トラックレットの堅牢な表現を学習することは、AIによる大腸内視鏡の応用を可能にする鍵となる。
本研究では,大腸内視鏡手術の逐次的ワークフローを利用して,時間的構造から自己監督的関連を導出する。
本稿では,ポリプ検索と再同定,サイズ推定,組織分類など,複数の下流タスクにおける学習表現の有効性を実証する。
論文 参考訳(メタデータ) (2026-05-12T16:04:42Z) - Training-free Temporal Object Tracking in Surgical Videos [20.689670966095097]
腹腔鏡下胆嚢摘出術(LC)手術ビデオにおけるオンライン物体追跡のための新しいアプローチを提案する。
提案手法は,既存のデータセットに固有の,コストの高いピクセルレベルのアノテーションとラベルの不整合の課題に対処する。
論文 参考訳(メタデータ) (2026-03-08T23:09:16Z) - A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation [3.146247125118741]
ColonTCNは、独自の時間的畳み込みブロックを使用して、大腸内視鏡ビデオの時間的セグメンテーションの時間的依存関係を効率的にキャプチャする学習ベースのアーキテクチャである。
ColonTCNは、評価時に低いパラメータ数を維持しながら、分類精度の最先端性を達成する。
腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下手術を施行した。
論文 参考訳(メタデータ) (2025-02-05T18:21:56Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。