Fugu-MT 論文翻訳(概要): ACT-Net: Anchor-context Action Detection in Surgery Videos

論文の概要: ACT-Net: Anchor-context Action Detection in Surgery Videos

arxiv url: http://arxiv.org/abs/2310.03377v1
Date: Thu, 5 Oct 2023 08:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 17:06:49.811180
Title: ACT-Net: Anchor-context Action Detection in Surgery Videos
Title（参考訳）: act-net:手術ビデオにおけるアンカーコンテキスト動作検出
Authors: Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming Duan, and Jiang Liu
Abstract要約: 外科的動作予測のためのアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。 ACTNetはアンカーコンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含む。ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは当社のACDに条件付き拡散型生成モデルを採用する。手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。
参考スコア（独自算出の注目度）: 34.032185905655005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognition and localization of surgical detailed actions is an essential component of developing a context-aware decision support system. However, most existing detection algorithms fail to provide high-accuracy action classes even having their locations, as they do not consider the surgery procedure's regularity in the whole video. This limitation hinders their application. Moreover, implementing the predictions in clinical applications seriously needs to convey model confidence to earn entrustment, which is unexplored in surgical action prediction. In this paper, to accurately detect fine-grained actions that happen at every moment, we propose an anchor-context action detection network (ACTNet), including an anchor-context detection (ACD) module and a class conditional diffusion (CCD) module, to answer the following questions: 1) where the actions happen; 2) what actions are; 3) how confidence predictions are. Specifically, the proposed ACD module spatially and temporally highlights the regions interacting with the extracted anchor in surgery video, which outputs action location and its class distribution based on anchor-context interactions. Considering the full distribution of action classes in videos, the CCD module adopts a denoising diffusion-based generative model conditioned on our ACD estimator to further reconstruct accurately the action predictions. Moreover, we utilize the stochastic nature of the diffusion model outputs to access model confidence for each prediction. Our method reports the state-of-the-art performance, with improvements of 4.0% mAP against baseline on the surgical video dataset.
Abstract（参考訳）: 手術の詳細な行動の認識と局所化は,文脈認識型意思決定支援システムの開発に不可欠な要素である。しかし、既存の検出アルゴリズムの多くは、映像全体において手術手順の規則性を考慮していないため、位置を持つ場合でも高精度なアクションクラスを提供していない。この制限は適用を妨げる。さらに, 臨床応用における予測の実施には, 信頼感をモデルに伝える必要があるが, 手術行動予測には未検討である。本稿では,各瞬間に発生するきめ細かい動作を正確に検出するために,アンカー・コンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含むアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。 1) 行動が起こる場合 2) 行動とは何か 3)信頼度予測の程度。具体的には,手術ビデオにおいて抽出されたアンカーと相互作用する領域を空間的および時間的に強調し,アンカーとコンテキストの相互作用に基づいて動作位置とそのクラス分布を求める。ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは、ACD推定器に条件付き拡散に基づく生成モデルを導入し、アクション予測をより正確に再構成する。さらに, 拡散モデル出力の確率的性質を利用して, 予測毎にモデル信頼度にアクセスする。手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。

関連論文リスト

AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.0682074616451595]
大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。 AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2025-08-05T13:59:18Z)
Future Slot Prediction for Unsupervised Object Discovery in Surgical Video [10.984331138780682]
オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
論文参考訳（メタデータ） (2025-07-02T16:52:16Z)
Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models [56.2236083600999]
手術映像解析のための階層型入力依存状態空間モデルを提案する。本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。実験により,本手法は最先端の手法よりも高い性能を示した。
論文参考訳（メタデータ） (2025-06-26T14:43:57Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文参考訳（メタデータ） (2025-05-14T23:43:29Z)
CoStoDet-DDPM: Collaborative Training of Stochastic and Deterministic Models Improves Surgical Workflow Anticipation and Recognition [12.360775476995169]
拡散確率モデル(DDPM)による固有モデリングを取り入れた革新的枠組みを導入する。私たちのアプローチの中心は、共同学習のパラダイムです。 Cholec80データセットを用いた実験では,予測タスクでは,最先端手法と比較してeMAEが16%削減された。
論文参考訳（メタデータ） (2025-03-13T09:59:05Z)
Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。 Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文参考訳（メタデータ） (2025-02-13T11:27:05Z)
ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection [10.2380174289706]
ESD Trajectory and Confidence Map-based Safety (ETSM)データセットを1849ドルの短いクリップで作成し、デュアルアームロボットシステムによる粘膜下剥離に焦点を当てた。また、最適解離軌道予測と信頼マップに基づく安全マージンを組み合わせたフレームワークも導入する。提案手法は, 予測精度の向上と解離プロセスの安全性の向上により, 現在の研究におけるギャップを埋めるものである。
論文参考訳（メタデータ） (2024-11-28T03:19:18Z)
CAVE-Net: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
複雑な画像データセットを解析する際の診断精度を向上させるために,アンサンブルに基づくアプローチを提案する。各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。これらの手法を用いることで、提案フレームワークであるCAVE-Netは、ロバストな特徴識別と、より優れた分類結果を提供する。
論文参考訳（メタデータ） (2024-10-26T17:25:08Z)
Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文参考訳（メタデータ） (2024-09-26T15:16:32Z)
LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2024-09-14T08:17:56Z)
ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。 SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。 CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文参考訳（メタデータ） (2024-06-30T14:55:32Z)
Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2024-02-03T00:58:05Z)
PoseAction: Action Recognition for Patients in the Ward using Deep Learning Approaches [0.0]
本稿では,コンピュータビジョン(CV)と深層学習(DL)を用いて被験者を検出し,その行動を認識することを提案する。映像ストリーム中の人体の位置を認識するために,OpenPoseを精度の高い被験者検出装置として利用する。本稿では,AlphActionのAsynchronous Interaction Aggregation (AIA) ネットワークを用いて検出対象の動作を予測する。
論文参考訳（メタデータ） (2023-10-05T03:33:35Z)
Weakly-Supervised Temporal Action Localization with Bidirectional Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文参考訳（メタデータ） (2023-04-25T07:20:33Z)
Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文参考訳（メタデータ） (2023-02-27T18:34:18Z)
Improving Classification Model Performance on Chest X-Rays through Lung Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文参考訳（メタデータ） (2022-02-22T15:24:06Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T12:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。