論文の概要: ACT-Net: Anchor-context Action Detection in Surgery Videos
- arxiv url: http://arxiv.org/abs/2310.03377v1
- Date: Thu, 5 Oct 2023 08:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:06:49.811180
- Title: ACT-Net: Anchor-context Action Detection in Surgery Videos
- Title(参考訳): act-net:手術ビデオにおけるアンカーコンテキスト動作検出
- Authors: Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming
Duan, and Jiang Liu
- Abstract要約: 外科的動作予測のためのアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。
ACTNetはアンカーコンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含む。
ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは当社のACDに条件付き拡散型生成モデルを採用する。
手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。
- 参考スコア(独自算出の注目度): 34.032185905655005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition and localization of surgical detailed actions is an essential
component of developing a context-aware decision support system. However, most
existing detection algorithms fail to provide high-accuracy action classes even
having their locations, as they do not consider the surgery procedure's
regularity in the whole video. This limitation hinders their application.
Moreover, implementing the predictions in clinical applications seriously needs
to convey model confidence to earn entrustment, which is unexplored in surgical
action prediction. In this paper, to accurately detect fine-grained actions
that happen at every moment, we propose an anchor-context action detection
network (ACTNet), including an anchor-context detection (ACD) module and a
class conditional diffusion (CCD) module, to answer the following questions: 1)
where the actions happen; 2) what actions are; 3) how confidence predictions
are. Specifically, the proposed ACD module spatially and temporally highlights
the regions interacting with the extracted anchor in surgery video, which
outputs action location and its class distribution based on anchor-context
interactions. Considering the full distribution of action classes in videos,
the CCD module adopts a denoising diffusion-based generative model conditioned
on our ACD estimator to further reconstruct accurately the action predictions.
Moreover, we utilize the stochastic nature of the diffusion model outputs to
access model confidence for each prediction. Our method reports the
state-of-the-art performance, with improvements of 4.0% mAP against baseline on
the surgical video dataset.
- Abstract(参考訳): 手術の詳細な行動の認識と局所化は,文脈認識型意思決定支援システムの開発に不可欠な要素である。
しかし、既存の検出アルゴリズムの多くは、映像全体において手術手順の規則性を考慮していないため、位置を持つ場合でも高精度なアクションクラスを提供していない。
この制限は適用を妨げる。
さらに, 臨床応用における予測の実施には, 信頼感をモデルに伝える必要があるが, 手術行動予測には未検討である。
本稿では,各瞬間に発生するきめ細かい動作を正確に検出するために,アンカー・コンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含むアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。
1) 行動が起こる場合
2) 行動とは何か
3)信頼度予測の程度。
具体的には,手術ビデオにおいて抽出されたアンカーと相互作用する領域を空間的および時間的に強調し,アンカーとコンテキストの相互作用に基づいて動作位置とそのクラス分布を求める。
ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは、ACD推定器に条件付き拡散に基づく生成モデルを導入し、アクション予測をより正確に再構成する。
さらに, 拡散モデル出力の確率的性質を利用して, 予測毎にモデル信頼度にアクセスする。
手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。
関連論文リスト
- Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Action Recognition in Video Recordings from Gynecologic Laparoscopy [4.002010889177872]
行動認識は腹腔鏡画像解析における多くの応用の前提条件である。
本研究では,CNN-RNNアーキテクチャと,カスタマイズしたトレーニング推論フレームワークの設計と評価を行う。
論文 参考訳(メタデータ) (2023-11-30T16:15:46Z) - PoseAction: Action Recognition for Patients in the Ward using Deep
Learning Approaches [0.0]
本稿では,コンピュータビジョン(CV)と深層学習(DL)を用いて被験者を検出し,その行動を認識することを提案する。
映像ストリーム中の人体の位置を認識するために,OpenPoseを精度の高い被験者検出装置として利用する。
本稿では,AlphActionのAsynchronous Interaction Aggregation (AIA) ネットワークを用いて検出対象の動作を予測する。
論文 参考訳(メタデータ) (2023-10-05T03:33:35Z) - Progression-Guided Temporal Action Detection in Videos [20.02711550239915]
本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2023-08-18T03:14:05Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。
我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。
提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T18:34:18Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action
Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。
顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。
ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。
本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T12:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。