論文の概要: VideoSum: A Python Library for Surgical Video Summarization
- arxiv url: http://arxiv.org/abs/2303.10173v2
- Date: Fri, 14 Jul 2023 16:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:50:17.021635
- Title: VideoSum: A Python Library for Surgical Video Summarization
- Title(参考訳): VideoSum: 外科的ビデオ要約のためのPythonライブラリ
- Authors: Luis C. Garcia-Peraza-Herrera, Sebastien Ourselin and Tom Vercauteren
- Abstract要約: 本稿では,画像の可視化,アノテーション,処理を容易にするために,手術映像を手話板や代表フレームのコラージュに要約することを提案する。
手術用ビデオからストーリーボードを生成するためのPythonライブラリである videoum を提案する。
- 参考スコア(独自算出の注目度): 3.928145224623878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of deep learning (DL) algorithms is heavily influenced by the
quantity and the quality of the annotated data. However, in Surgical Data
Science, access to it is limited. It is thus unsurprising that substantial
research efforts are made to develop methods aiming at mitigating the scarcity
of annotated SDS data. In parallel, an increasing number of Computer Assisted
Interventions (CAI) datasets are being released, although the scale of these
remain limited. On these premises, data curation is becoming a key element of
many SDS research endeavors. Surgical video datasets are demanding to curate
and would benefit from dedicated support tools. In this work, we propose to
summarize surgical videos into storyboards or collages of representative frames
to ease visualization, annotation, and processing. Video summarization is
well-established for natural images. However, state-of-the-art methods
typically rely on models trained on human-made annotations, few methods have
been evaluated on surgical videos, and the availability of software packages
for the task is limited. We present videosum, an easy-to-use and open-source
Python library to generate storyboards from surgical videos that contains a
variety of unsupervised methods.
- Abstract(参考訳): ディープラーニング(DL)アルゴリズムの性能は,注釈付きデータの量や品質に大きく影響されている。
しかし、外科データサイエンスでは、それへのアクセスは限られている。
したがって、注釈付きSDSデータの不足を緩和する手法を開発するために、かなりの研究努力がなされている。
並行して、CAI(Computer Assisted Interventions)データセットの数が増加しているが、その規模は限られている。
これらの前提で、データキュレーションは多くのSDS研究の重要要素になりつつある。
手術用ビデオデータセットは、キュレーションを要求しており、専用のサポートツールの恩恵を受ける。
本稿では,映像の可視化,注釈,処理を容易にするために,代表的なフレームのストーリーボードやコラージュに手術映像を要約する。
自然画像ではビデオ要約が確立されている。
しかし、最先端の手法は通常、人工アノテーションで訓練されたモデルに依存し、手術ビデオで評価された方法はほとんどなく、作業のためのソフトウェアパッケージは限られている。
さまざまな教師なし手法を含む外科的ビデオからストーリーボードを生成するための,使いやすくオープンソースのPythonライブラリである videoum を提案する。
関連論文リスト
- LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。