Fugu-MT 論文翻訳(概要): Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection via Spatial-Temporal Feature Transformation

論文の概要: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection via Spatial-Temporal Feature Transformation

arxiv url: http://arxiv.org/abs/2107.03609v1
Date: Thu, 8 Jul 2021 05:17:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-09 20:32:17.335104
Title: Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection via Spatial-Temporal Feature Transformation
Title（参考訳）: 空間-時間的特徴変換を用いた内視鏡的ポリープ検出のためのマルチフレームコラボレーション
Authors: Lingyun Wu, Zhiqiang Hu, Yuanfeng Ji, Ping Luo, Shaoting Zhang
Abstract要約: 本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。例えば、STFTは、カメラ移動時のフレーム間変動を、プロポーザル誘導変形可能な畳み込みによる特徴アライメントで軽減する。その結果,本手法の有効性と安定性が実証された。
参考スコア（独自算出の注目度）: 28.01363432141765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Precise localization of polyp is crucial for early cancer screening in gastrointestinal endoscopy. Videos given by endoscopy bring both richer contextual information as well as more challenges than still images. The camera-moving situation, instead of the common camera-fixed-object-moving one, leads to significant background variation between frames. Severe internal artifacts (e.g. water flow in the human body, specular reflection by tissues) can make the quality of adjacent frames vary considerately. These factors hinder a video-based model to effectively aggregate features from neighborhood frames and give better predictions. In this paper, we present Spatial-Temporal Feature Transformation (STFT), a multi-frame collaborative framework to address these issues. Spatially, STFT mitigates inter-frame variations in the camera-moving situation with feature alignment by proposal-guided deformable convolutions. Temporally, STFT proposes a channel-aware attention module to simultaneously estimate the quality and correlation of adjacent frames for adaptive feature aggregation. Empirical studies and superior results demonstrate the effectiveness and stability of our method. For example, STFT improves the still image baseline FCOS by 10.6% and 20.6% on the comprehensive F1-score of the polyp localization task in CVC-Clinic and ASUMayo datasets, respectively, and outperforms the state-of-the-art video-based method by 3.6% and 8.0%, respectively. Code is available at \url{https://github.com/lingyunwu14/STFT}.
Abstract（参考訳）: 消化管内視鏡検査におけるポリープの精密局在は早期癌スクリーニングに不可欠である。 endoscopyが提供したビデオは、より豊かなコンテキスト情報と、静止画よりも多くの課題をもたらす。カメラの移動状況は、通常のカメラ固定オブジェクト移動状況ではなく、フレーム間の背景が著しく変化する。厳格な内部アーティファクト(例えば、) 人の体内の水の流れ(組織による特異な反射)は、隣接するフレームの品質を慎重に変化させる。これらの要因は、近隣フレームの機能を効果的に集約し、より良い予測を提供するためのビデオベースのモデルを妨げる。本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。空間的に、STFTは、プロポーザル誘導変形可能な畳み込みによる特徴アライメントを伴う、カメラ移動状況におけるフレーム間変動を緩和する。時としてSTFTは、適応的特徴集約のための隣接フレームの品質と相関を同時に推定するチャネル対応アテンションモジュールを提案する。その結果,本手法の有効性と安定性が実証された。例えば、sftは、cvc-clinic および asumayo データセットの polyp ローカライズタスクの包括的 f1-score において、静止画像ベースライン fco を 10.6% と 20.6% 改善し、それぞれ 3.6% と 8.0% で最先端ビデオベース手法を上回った。コードは \url{https://github.com/lingyunwu14/stft} で入手できる。

関連論文リスト

AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.0682074616451595]
大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。 AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2025-08-05T13:59:18Z)
CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Heterogeneous Medical Images [29.68616115427831]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。医用撮像装置の限界により、医用画像は大きな異質性を示し、セグメンテーションの課題を提起する。本稿では,効果的なチャネル特徴抽出を利用するCFFormerと呼ばれるハイブリッドCNN-Transformerモデルを提案する。
論文参考訳（メタデータ） (2025-01-07T08:59:20Z)
Automatic Image Unfolding and Stitching Framework for Esophageal Lining Video Based on Density-Weighted Feature Matching [6.995909617361624]
本稿では,内視鏡撮影時に撮影した食道ビデオに適した新しい自動画像展開・縫合フレームワークを提案する。このフレームワークは、ビデオシーケンスにまたがる低ルート平均角構造誤差(RMSE)と高類似度指数(SSIM)を実現する。
論文参考訳（メタデータ） (2024-10-02T00:53:48Z)
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。実験により, 現状技術(SOTA)法の改良が示された。本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文参考訳（メタデータ） (2024-06-14T17:33:11Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文参考訳（メタデータ） (2023-06-06T13:53:15Z)
Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文参考訳（メタデータ） (2022-11-29T23:47:56Z)
Affinity Feature Strengthening for Accurate, Complete and Robust Vessel Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文参考訳（メタデータ） (2022-11-12T05:39:17Z)
Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文参考訳（メタデータ） (2022-08-17T14:28:58Z)
Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文参考訳（メタデータ） (2022-08-01T14:43:15Z)
GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。我々はSIFT機能を活用することを提案する。カメラのモーメントを推定し 1%の確率で時間セグメントを識別します実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文参考訳（メタデータ） (2022-07-29T07:01:31Z)
DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文参考訳（メタデータ） (2022-06-20T15:31:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。