論文の概要: PEg TRAnsfer Workflow recognition challenge report: Does multi-modal
data improve recognition?
- arxiv url: http://arxiv.org/abs/2202.05821v1
- Date: Fri, 11 Feb 2022 18:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 14:42:18.920602
- Title: PEg TRAnsfer Workflow recognition challenge report: Does multi-modal
data improve recognition?
- Title(参考訳): PEg TRAnsfer Workflow Recognition Challenge Report: マルチモーダルデータは認識を改善するか?
- Authors: Arnaud Huaulm\'e, Kanako Harada, Quang-Minh Nguyen, Bogyu Park,
Seungbum Hong, Min-Kook Choi, Michael Peven, Yunshuang Li, Yonghao Long, Qi
Dou, Satyadwyoom Kumar, Seenivasan Lalithkumar, Ren Hongliang, Hiroki
Matsuzaki, Yuto Ishikawa, Yuriko Harai, Satoshi Kondo, Mamoru Mitsuishi,
Pierre Jannin
- Abstract要約: PETRAW (PEg TRAnsfert Recognition) の課題は, 手術ワークフロー認識法の開発であった。
PETRAWチャレンジは、仮想シミュレータ上で実行される150ペグの転送シーケンスのデータセットを提供する。
ビデオ/キネマティックベースの手法と一様性(uni-modality)の改善は、すべてのチームにとって重要なものでした。
- 参考スコア(独自算出の注目度): 14.144188912860892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the design and results of the "PEg TRAnsfert Workflow
recognition" (PETRAW) challenge whose objective was to develop surgical
workflow recognition methods based on one or several modalities, among video,
kinematic, and segmentation data, in order to study their added value. The
PETRAW challenge provided a data set of 150 peg transfer sequences performed on
a virtual simulator. This data set was composed of videos, kinematics, semantic
segmentation, and workflow annotations which described the sequences at three
different granularity levels: phase, step, and activity. Five tasks were
proposed to the participants: three of them were related to the recognition of
all granularities with one of the available modalities, while the others
addressed the recognition with a combination of modalities. Average
application-dependent balanced accuracy (AD-Accuracy) was used as evaluation
metric to take unbalanced classes into account and because it is more
clinically relevant than a frame-by-frame score. Seven teams participated in at
least one task and four of them in all tasks. Best results are obtained with
the use of the video and the kinematics data with an AD-Accuracy between 93%
and 90% for the four teams who participated in all tasks. The improvement
between video/kinematic-based methods and the uni-modality ones was significant
for all of the teams. However, the difference in testing execution time between
the video/kinematic-based and the kinematic-based methods has to be taken into
consideration. Is it relevant to spend 20 to 200 times more computing time for
less than 3% of improvement? The PETRAW data set is publicly available at
www.synapse.org/PETRAW to encourage further research in surgical workflow
recognition.
- Abstract(参考訳): 本稿では,ビデオ,キネマティック,セグメンテーションデータのうち1つまたは複数のモダリティに基づく手術的ワークフロー認識法を開発することを目的としたpeg transfert workflow recognition (petraw) 課題の設計と結果について述べる。
PETRAWチャレンジは、仮想シミュレータ上で実行される150ペグの転送シーケンスのデータセットを提供する。
このデータセットは、ビデオ、キネマティック、セマンティックセグメンテーション、ワークフローアノテーションで構成され、フェーズ、ステップ、アクティビティの3つの異なる粒度レベルでシーケンスを記述する。
5つのタスクが参加者に提案され、そのうち3つは利用可能なモダリティの1つで全ての粒度の認識に関連し、もう1つはモダリティの組み合わせで認識に対処した。
平均アプリケーション依存バランス精度(AD-Accuracy)は、フレーム単位のスコアよりも臨床的に関連があるため、不均衡なクラスを考慮に入れた評価指標として用いられた。
7チームが少なくとも1つのタスクに参加し、そのうち4つがすべてのタスクに参加しました。
最善の結果は、すべてのタスクに参加した4チームに対して93%から90%の精度でビデオとキネマティクスデータを使用することで得られる。
ビデオ/キネマティックベースの方法と一様性の改善は、すべてのチームにとって重要なものでした。
しかし,ビデオ/キネマティック方式とキネマティック方式では実行時間の差を考慮する必要がある。
3%未満の改善のために、20倍から200倍のコンピューティング時間を費やすことが重要か?
PETRAWデータセットは、外科的ワークフロー認識のさらなる研究を促進するためにwww.synapse.org/PETRAWで公開されている。
関連論文リスト
- Multi-Task Consistency for Active Learning [18.794331424921946]
不整合に基づくアクティブラーニングは、アノテーションに対する情報的サンプルの選択に有効であることが証明されている。
本稿では,オブジェクト検出とセマンティックセグメンテーションという2つの複合視覚タスクのための,新しいマルチタスク能動学習戦略を提案する。
提案手法は、利用可能なデータのわずか67%を使用して、完全にトレーニングされたパフォーマンスの95%を達成している。
論文 参考訳(メタデータ) (2023-06-21T17:34:31Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - MIcro-Surgical Anastomose Workflow recognition challenge report [12.252332806968756]
MISAW(Micro-Surgical Anastomose recognition on training session)の課題は、人工血管のマイクロサージカルアナスモシス27配列のデータセットを提供した。
このデータセットは、フェーズ、ステップ、アクティビティの3つの異なる粒度レベルで記述されたビデオ、キネマティクス、ワークフローアノテーションで構成されています。
最高のモデルは、段階認識の95%以上のAD精度、ステップ認識の80%、アクティビティ認識の60%、すべての粒度レベルの75%を達成しました。
論文 参考訳(メタデータ) (2021-03-24T11:34:09Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。