論文の概要: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection
via Spatial-Temporal Feature Transformation
- arxiv url: http://arxiv.org/abs/2107.03609v1
- Date: Thu, 8 Jul 2021 05:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 20:32:17.335104
- Title: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection
via Spatial-Temporal Feature Transformation
- Title(参考訳): 空間-時間的特徴変換を用いた内視鏡的ポリープ検出のためのマルチフレームコラボレーション
- Authors: Lingyun Wu, Zhiqiang Hu, Yuanfeng Ji, Ping Luo, Shaoting Zhang
- Abstract要約: 本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。
例えば、STFTは、カメラ移動時のフレーム間変動を、プロポーザル誘導変形可能な畳み込みによる特徴アライメントで軽減する。
その結果,本手法の有効性と安定性が実証された。
- 参考スコア(独自算出の注目度): 28.01363432141765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise localization of polyp is crucial for early cancer screening in
gastrointestinal endoscopy. Videos given by endoscopy bring both richer
contextual information as well as more challenges than still images. The
camera-moving situation, instead of the common camera-fixed-object-moving one,
leads to significant background variation between frames. Severe internal
artifacts (e.g. water flow in the human body, specular reflection by tissues)
can make the quality of adjacent frames vary considerately. These factors
hinder a video-based model to effectively aggregate features from neighborhood
frames and give better predictions. In this paper, we present Spatial-Temporal
Feature Transformation (STFT), a multi-frame collaborative framework to address
these issues. Spatially, STFT mitigates inter-frame variations in the
camera-moving situation with feature alignment by proposal-guided deformable
convolutions. Temporally, STFT proposes a channel-aware attention module to
simultaneously estimate the quality and correlation of adjacent frames for
adaptive feature aggregation. Empirical studies and superior results
demonstrate the effectiveness and stability of our method. For example, STFT
improves the still image baseline FCOS by 10.6% and 20.6% on the comprehensive
F1-score of the polyp localization task in CVC-Clinic and ASUMayo datasets,
respectively, and outperforms the state-of-the-art video-based method by 3.6%
and 8.0%, respectively. Code is available at
\url{https://github.com/lingyunwu14/STFT}.
- Abstract(参考訳): 消化管内視鏡検査におけるポリープの精密局在は早期癌スクリーニングに不可欠である。
endoscopyが提供したビデオは、より豊かなコンテキスト情報と、静止画よりも多くの課題をもたらす。
カメラの移動状況は、通常のカメラ固定オブジェクト移動状況ではなく、フレーム間の背景が著しく変化する。
厳格な内部アーティファクト(例えば、)
人の体内の水の流れ(組織による特異な反射)は、隣接するフレームの品質を慎重に変化させる。
これらの要因は、近隣フレームの機能を効果的に集約し、より良い予測を提供するためのビデオベースのモデルを妨げる。
本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。
空間的に、STFTは、プロポーザル誘導変形可能な畳み込みによる特徴アライメントを伴う、カメラ移動状況におけるフレーム間変動を緩和する。
時としてSTFTは、適応的特徴集約のための隣接フレームの品質と相関を同時に推定するチャネル対応アテンションモジュールを提案する。
その結果,本手法の有効性と安定性が実証された。
例えば、sftは、cvc-clinic および asumayo データセットの polyp ローカライズタスクの包括的 f1-score において、静止画像ベースライン fco を 10.6% と 20.6% 改善し、それぞれ 3.6% と 8.0% で最先端ビデオベース手法を上回った。
コードは \url{https://github.com/lingyunwu14/stft} で入手できる。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文 参考訳(メタデータ) (2023-06-06T13:53:15Z) - Accurate Real-time Polyp Detection in Videos from Concatenation of
Latent Features Extracted from Consecutive Frames [5.2009074009536524]
畳み込みニューラルネットワーク(CNN)は入力画像の小さな変化に対して脆弱である。
CNNベースのモデルは、連続したフレームに現れる同じポリプを見逃す可能性がある。
CNNを用いたエンコーダデコーダモデルの効率的な特徴結合法を提案する。
論文 参考訳(メタデータ) (2023-03-10T11:51:22Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文 参考訳(メタデータ) (2022-08-01T14:43:15Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Camera Adaptation for Fundus-Image-Based CVD Risk Estimation [20.240895185459618]
ディープ・ラーニング(DL)とポータブル・ファンド・カメラを組み合わせることで様々なシナリオでCVDのリスクを見積もることができる。
最優先課題の1つは、研究用データベースと生産環境におけるサンプルの違いである。
モデルロバスト性を改善するために, 横方向特徴アライメント事前学習方式と自己注意型カメラ適応モジュールを提案する。
論文 参考訳(メタデータ) (2022-06-18T13:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。