論文の概要: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection
via Spatial-Temporal Feature Transformation
- arxiv url: http://arxiv.org/abs/2107.03609v1
- Date: Thu, 8 Jul 2021 05:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 20:32:17.335104
- Title: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection
via Spatial-Temporal Feature Transformation
- Title(参考訳): 空間-時間的特徴変換を用いた内視鏡的ポリープ検出のためのマルチフレームコラボレーション
- Authors: Lingyun Wu, Zhiqiang Hu, Yuanfeng Ji, Ping Luo, Shaoting Zhang
- Abstract要約: 本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。
例えば、STFTは、カメラ移動時のフレーム間変動を、プロポーザル誘導変形可能な畳み込みによる特徴アライメントで軽減する。
その結果,本手法の有効性と安定性が実証された。
- 参考スコア(独自算出の注目度): 28.01363432141765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise localization of polyp is crucial for early cancer screening in
gastrointestinal endoscopy. Videos given by endoscopy bring both richer
contextual information as well as more challenges than still images. The
camera-moving situation, instead of the common camera-fixed-object-moving one,
leads to significant background variation between frames. Severe internal
artifacts (e.g. water flow in the human body, specular reflection by tissues)
can make the quality of adjacent frames vary considerately. These factors
hinder a video-based model to effectively aggregate features from neighborhood
frames and give better predictions. In this paper, we present Spatial-Temporal
Feature Transformation (STFT), a multi-frame collaborative framework to address
these issues. Spatially, STFT mitigates inter-frame variations in the
camera-moving situation with feature alignment by proposal-guided deformable
convolutions. Temporally, STFT proposes a channel-aware attention module to
simultaneously estimate the quality and correlation of adjacent frames for
adaptive feature aggregation. Empirical studies and superior results
demonstrate the effectiveness and stability of our method. For example, STFT
improves the still image baseline FCOS by 10.6% and 20.6% on the comprehensive
F1-score of the polyp localization task in CVC-Clinic and ASUMayo datasets,
respectively, and outperforms the state-of-the-art video-based method by 3.6%
and 8.0%, respectively. Code is available at
\url{https://github.com/lingyunwu14/STFT}.
- Abstract(参考訳): 消化管内視鏡検査におけるポリープの精密局在は早期癌スクリーニングに不可欠である。
endoscopyが提供したビデオは、より豊かなコンテキスト情報と、静止画よりも多くの課題をもたらす。
カメラの移動状況は、通常のカメラ固定オブジェクト移動状況ではなく、フレーム間の背景が著しく変化する。
厳格な内部アーティファクト(例えば、)
人の体内の水の流れ(組織による特異な反射)は、隣接するフレームの品質を慎重に変化させる。
これらの要因は、近隣フレームの機能を効果的に集約し、より良い予測を提供するためのビデオベースのモデルを妨げる。
本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。
空間的に、STFTは、プロポーザル誘導変形可能な畳み込みによる特徴アライメントを伴う、カメラ移動状況におけるフレーム間変動を緩和する。
時としてSTFTは、適応的特徴集約のための隣接フレームの品質と相関を同時に推定するチャネル対応アテンションモジュールを提案する。
その結果,本手法の有効性と安定性が実証された。
例えば、sftは、cvc-clinic および asumayo データセットの polyp ローカライズタスクの包括的 f1-score において、静止画像ベースライン fco を 10.6% と 20.6% 改善し、それぞれ 3.6% と 8.0% で最先端ビデオベース手法を上回った。
コードは \url{https://github.com/lingyunwu14/stft} で入手できる。
関連論文リスト
- Automatic Image Unfolding and Stitching Framework for Esophageal Lining Video Based on Density-Weighted Feature Matching [6.995909617361624]
本稿では,内視鏡撮影時に撮影した食道ビデオに適した新しい自動画像展開・縫合フレームワークを提案する。
このフレームワークは、ビデオシーケンスにまたがる低ルート平均角構造誤差(RMSE)と高類似度指数(SSIM)を実現する。
論文 参考訳(メタデータ) (2024-10-02T00:53:48Z) - SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。
実験により, 現状技術(SOTA)法の改良が示された。
本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文 参考訳(メタデータ) (2024-06-14T17:33:11Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文 参考訳(メタデータ) (2023-06-06T13:53:15Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文 参考訳(メタデータ) (2022-08-01T14:43:15Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。