論文の概要: YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection
- arxiv url: http://arxiv.org/abs/2306.03686v1
- Date: Tue, 6 Jun 2023 13:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:15:22.621561
- Title: YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection
- Title(参考訳): YONA:ビデオポリープの正確な検出には、隣接する参照フレームが1つ必要
- Authors: Yuncheng Jiang, Zixun Zhang, Ruimao Zhang, Guanbin Li, Shuguang Cui,
Zhen Li
- Abstract要約: textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
- 参考スコア(独自算出の注目度): 80.68520401539979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate polyp detection is essential for assisting clinical rectal cancer
diagnoses. Colonoscopy videos contain richer information than still images,
making them a valuable resource for deep learning methods. Great efforts have
been made to conduct video polyp detection through multi-frame temporal/spatial
aggregation. However, unlike common fixed-camera video, the camera-moving scene
in colonoscopy videos can cause rapid video jitters, leading to unstable
training for existing video detection models. Additionally, the concealed
nature of some polyps and the complex background environment further hinder the
performance of existing video detectors. In this paper, we propose the
\textbf{YONA} (\textbf{Y}ou \textbf{O}nly \textbf{N}eed one \textbf{A}djacent
Reference-frame) method, an efficient end-to-end training framework for video
polyp detection. YONA fully exploits the information of one previous adjacent
frame and conducts polyp detection on the current frame without multi-frame
collaborations. Specifically, for the foreground, YONA adaptively aligns the
current frame's channel activation patterns with its adjacent reference frames
according to their foreground similarity. For the background, YONA conducts
background dynamic alignment guided by inter-frame difference to eliminate the
invalid features produced by drastic spatial jitters. Moreover, YONA applies
cross-frame contrastive learning during training, leveraging the ground truth
bounding box to improve the model's perception of polyp and background.
Quantitative and qualitative experiments on three public challenging benchmarks
demonstrate that our proposed YONA outperforms previous state-of-the-art
competitors by a large margin in both accuracy and speed.
- Abstract(参考訳): 正確なポリープ検出は臨床直腸癌診断に不可欠である。
コロニービデオには静止画像よりも豊富な情報が含まれており、深層学習のための貴重なリソースとなっている。
多フレーム時間/空間アグリゲーションによるビデオポリープ検出に多大な努力が払われている。
しかし、一般的な固定カメラビデオとは異なり、大腸内視鏡ビデオにおけるカメラ移動シーンは、急激なビデオジッタを引き起こし、既存のビデオ検出モデルの不安定なトレーニングにつながる。
さらに、ポリプの隠れた性質と複雑な背景環境は、既存のビデオ検出器の性能をさらに阻害する。
本稿では,ビデオポリープ検出のための効率的なエンドツーエンドトレーニングフレームワークである \textbf{YONA} (\textbf{Y}ou \textbf{O}ned one \textbf{N}eed one \textbf{A}djacent Reference-frame) 法を提案する。
YONAは、隣接するフレームの情報をフル活用し、複数フレームのコラボレーションなしで現在のフレーム上でポリプ検出を行う。
具体的には、前景については、前景の類似性に応じて、現在のフレームのチャネル活性化パターンを隣接する参照フレームに適応的に整合させる。
背景としては,フレーム間差による背景動的アライメントを行い,空間ジッタが生み出す無効な特徴を解消する。
さらに、ヨナはトレーニング中にクロスフレームのコントラスト学習を適用し、真理境界ボックスを活用して、ポリプと背景に対するモデルの認識を改善する。
3つの公開課題ベンチマークの定量的および定性的な実験により、提案されたYONAは、従来の最先端の競合よりも精度と速度に大きな差があることが証明された。
関連論文リスト
- SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。
実験により, 現状技術(SOTA)法の改良が示された。
本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文 参考訳(メタデータ) (2024-06-14T17:33:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Accurate Real-time Polyp Detection in Videos from Concatenation of
Latent Features Extracted from Consecutive Frames [5.2009074009536524]
畳み込みニューラルネットワーク(CNN)は入力画像の小さな変化に対して脆弱である。
CNNベースのモデルは、連続したフレームに現れる同じポリプを見逃す可能性がある。
CNNを用いたエンコーダデコーダモデルの効率的な特徴結合法を提案する。
論文 参考訳(メタデータ) (2023-03-10T11:51:22Z) - Contrastive Transformer-based Multiple Instance Learning for Weakly
Supervised Polyp Frame Detection [30.51410140271929]
現在の大腸内視鏡ビデオからのポリープ検出法では、正常な(健康な)訓練画像のみを使用する。
我々は,ビデオレベルのラベル付き学習データを用いてフレームレベルのポリプを検出する弱教師付き異常検出タスクとして,ポリプ検出を定式化する。
論文 参考訳(メタデータ) (2022-03-23T01:30:48Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection
via Spatial-Temporal Feature Transformation [28.01363432141765]
本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。
例えば、STFTは、カメラ移動時のフレーム間変動を、プロポーザル誘導変形可能な畳み込みによる特徴アライメントで軽減する。
その結果,本手法の有効性と安定性が実証された。
論文 参考訳(メタデータ) (2021-07-08T05:17:30Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。