論文の概要: Surgical Skill Assessment via Video Semantic Aggregation
- arxiv url: http://arxiv.org/abs/2208.02611v1
- Date: Thu, 4 Aug 2022 12:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:39:12.764432
- Title: Surgical Skill Assessment via Video Semantic Aggregation
- Title(参考訳): ビデオセマンティックアグリゲーションによる外科的スキル評価
- Authors: Zhenqiang Li, Lin Gu, Weimin Wang, Ryosuke Nakamura, and Yoichi Sato
- Abstract要約: 本稿では,異なる意味的部分を発見し,時間次元にまたがって集約する,スキルアセスメントフレームワークであるビデオセマンティックアグリゲーション(ViSA)を提案する。
意味的部分の明示的な発見は、ニューラルネットワークの決定を理解するのに役立つ説明的可視化を提供する。
2つのデータセットの実験は、最先端の手法と比較して、ViSAの競争力を示している。
- 参考スコア(独自算出の注目度): 20.396898001950156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated video-based assessment of surgical skills is a promising task in
assisting young surgical trainees, especially in poor-resource areas. Existing
works often resort to a CNN-LSTM joint framework that models long-term
relationships by LSTMs on spatially pooled short-term CNN features. However,
this practice would inevitably neglect the difference among semantic concepts
such as tools, tissues, and background in the spatial dimension, impeding the
subsequent temporal relationship modeling. In this paper, we propose a novel
skill assessment framework, Video Semantic Aggregation (ViSA), which discovers
different semantic parts and aggregates them across spatiotemporal dimensions.
The explicit discovery of semantic parts provides an explanatory visualization
that helps understand the neural network's decisions. It also enables us to
further incorporate auxiliary information such as the kinematic data to improve
representation learning and performance. The experiments on two datasets show
the competitiveness of ViSA compared to state-of-the-art methods. Source code
is available at: bit.ly/MICCAI2022ViSA.
- Abstract(参考訳): 手術スキルの自動評価は,若年者,特に低資源地域での訓練を支援する上で有望な課題である。
既存の作業は、空間プールした短期CNN機能上でLSTMによる長期関係をモデル化するCNN-LSTMジョイントフレームワークを利用することが多い。
しかし、この慣習は、道具、組織、空間次元における背景といった意味概念の違いを必然的に無視し、その後の時間的関係モデリングを阻害する。
本稿では,異なる意味的部分を発見し,時空間的次元にまたがってそれらを集約する,新しいスキルアセスメントフレームワークであるvideo semantic aggregation (visa)を提案する。
意味的部分の明示的な発見は、ニューラルネットワークの決定を理解するのに役立つ説明的可視化を提供する。
また,キネマティックデータなどの補助情報をさらに取り入れることで,表現学習と性能を向上させることができる。
2つのデータセットの実験は、最先端の手法と比較してViSAの競争力を示している。
ソースコードは: bit.ly/MICCAI2022ViSAで入手できる。
関連論文リスト
- Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文 参考訳(メタデータ) (2023-12-12T17:00:46Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Temporally Constrained Neural Networks (TCNN): A framework for
semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。
本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。
予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文 参考訳(メタデータ) (2021-12-27T18:06:12Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification [106.50534744965955]
IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
論文 参考訳(メタデータ) (2020-09-02T13:07:10Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。