論文の概要: ACT-Net: Anchor-context Action Detection in Surgery Videos
- arxiv url: http://arxiv.org/abs/2310.03377v1
- Date: Thu, 5 Oct 2023 08:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:06:49.811180
- Title: ACT-Net: Anchor-context Action Detection in Surgery Videos
- Title(参考訳): act-net:手術ビデオにおけるアンカーコンテキスト動作検出
- Authors: Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming
Duan, and Jiang Liu
- Abstract要約: 外科的動作予測のためのアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。
ACTNetはアンカーコンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含む。
ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは当社のACDに条件付き拡散型生成モデルを採用する。
手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。
- 参考スコア(独自算出の注目度): 34.032185905655005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition and localization of surgical detailed actions is an essential
component of developing a context-aware decision support system. However, most
existing detection algorithms fail to provide high-accuracy action classes even
having their locations, as they do not consider the surgery procedure's
regularity in the whole video. This limitation hinders their application.
Moreover, implementing the predictions in clinical applications seriously needs
to convey model confidence to earn entrustment, which is unexplored in surgical
action prediction. In this paper, to accurately detect fine-grained actions
that happen at every moment, we propose an anchor-context action detection
network (ACTNet), including an anchor-context detection (ACD) module and a
class conditional diffusion (CCD) module, to answer the following questions: 1)
where the actions happen; 2) what actions are; 3) how confidence predictions
are. Specifically, the proposed ACD module spatially and temporally highlights
the regions interacting with the extracted anchor in surgery video, which
outputs action location and its class distribution based on anchor-context
interactions. Considering the full distribution of action classes in videos,
the CCD module adopts a denoising diffusion-based generative model conditioned
on our ACD estimator to further reconstruct accurately the action predictions.
Moreover, we utilize the stochastic nature of the diffusion model outputs to
access model confidence for each prediction. Our method reports the
state-of-the-art performance, with improvements of 4.0% mAP against baseline on
the surgical video dataset.
- Abstract(参考訳): 手術の詳細な行動の認識と局所化は,文脈認識型意思決定支援システムの開発に不可欠な要素である。
しかし、既存の検出アルゴリズムの多くは、映像全体において手術手順の規則性を考慮していないため、位置を持つ場合でも高精度なアクションクラスを提供していない。
この制限は適用を妨げる。
さらに, 臨床応用における予測の実施には, 信頼感をモデルに伝える必要があるが, 手術行動予測には未検討である。
本稿では,各瞬間に発生するきめ細かい動作を正確に検出するために,アンカー・コンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含むアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。
1) 行動が起こる場合
2) 行動とは何か
3)信頼度予測の程度。
具体的には,手術ビデオにおいて抽出されたアンカーと相互作用する領域を空間的および時間的に強調し,アンカーとコンテキストの相互作用に基づいて動作位置とそのクラス分布を求める。
ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは、ACD推定器に条件付き拡散に基づく生成モデルを導入し、アクション予測をより正確に再構成する。
さらに, 拡散モデル出力の確率的性質を利用して, 予測毎にモデル信頼度にアクセスする。
手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。
関連論文リスト
- Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2024-09-14T08:17:56Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - PoseAction: Action Recognition for Patients in the Ward using Deep
Learning Approaches [0.0]
本稿では,コンピュータビジョン(CV)と深層学習(DL)を用いて被験者を検出し,その行動を認識することを提案する。
映像ストリーム中の人体の位置を認識するために,OpenPoseを精度の高い被験者検出装置として利用する。
本稿では,AlphActionのAsynchronous Interaction Aggregation (AIA) ネットワークを用いて検出対象の動作を予測する。
論文 参考訳(メタデータ) (2023-10-05T03:33:35Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。
我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。
提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T18:34:18Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action
Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。
顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。
ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。
本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T12:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。