論文の概要: Self-Supervised Video Desmoking for Laparoscopic Surgery
- arxiv url: http://arxiv.org/abs/2403.11192v1
- Date: Sun, 17 Mar 2024 12:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:06:05.343005
- Title: Self-Supervised Video Desmoking for Laparoscopic Surgery
- Title(参考訳): 腹腔鏡下手術における自己監督型ビデオ禁煙法
- Authors: Renlong Wu, Zhilu Zhang, Shuohao Zhang, Longfei Gou, Haobin Chen, Lei Zhang, Hao Chen, Wangmeng Zuo,
- Abstract要約: 自己監督型手術ビデオデモーキング(SelfSVD)について紹介する。
高エネルギー装置の起動前に捕捉したフレームは一般に明確である(プレスモークフレーム、PSフレーム)。
さらに、PSフレームからモデルに貴重な情報を供給し、マスキング戦略と正規化項を提示し、自明な解決策を避ける。
- 参考スコア(独自算出の注目度): 48.83900673665993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the difficulty of collecting real paired data, most existing desmoking methods train the models by synthesizing smoke, generalizing poorly to real surgical scenarios. Although a few works have explored single-image real-world desmoking in unpaired learning manners, they still encounter challenges in handling dense smoke. In this work, we address these issues together by introducing the self-supervised surgery video desmoking (SelfSVD). On the one hand, we observe that the frame captured before the activation of high-energy devices is generally clear (named pre-smoke frame, PS frame), thus it can serve as supervision for other smoky frames, making real-world self-supervised video desmoking practically feasible. On the other hand, in order to enhance the desmoking performance, we further feed the valuable information from PS frame into models, where a masking strategy and a regularization term are presented to avoid trivial solutions. In addition, we construct a real surgery video dataset for desmoking, which covers a variety of smoky scenes. Extensive experiments on the dataset show that our SelfSVD can remove smoke more effectively and efficiently while recovering more photo-realistic details than the state-of-the-art methods. The dataset, codes, and pre-trained models are available at \url{https://github.com/ZcsrenlongZ/SelfSVD}.
- Abstract(参考訳): 実際のペアデータを集めるのが困難であるため、既存の喫煙法のほとんどは、煙を合成してモデルを訓練し、実際の手術シナリオに不適当に一般化する。
未経験の学習方法で、シングルイメージの現実世界の喫煙を探索する研究はいくつかあるが、密煙を扱う上ではまだ課題に直面している。
本研究では,自己監督型手術ビデオデモーキング(SelfSVD)を導入することで,これらの課題に対処する。
一方、高エネルギー装置の起動前に捕捉したフレームは、一般的には明確であり(前煙フレーム、PSフレーム)、他のスモーキーフレームの監視として機能し、現実の自己監督型ビデオデモーキングを現実的に実現可能である。
一方, デスモーキング性能を向上させるため, マスク戦略と正規化項が提示され, 自明な解決を避けるためにPSフレームからモデルに貴重な情報を与える。
さらに,各種のスモーキーシーンをカバーした,デ喫煙のためのリアルな手術ビデオデータセットを構築した。
データセットの大規模な実験により、私たちのSelfSVDは、最先端の手法よりもよりリアルな詳細を回復しながら、より効率的かつ効率的に煙を除去できることがわかった。
データセット、コード、事前トレーニングされたモデルは、 \url{https://github.com/ZcsrenlongZ/SelfSVD}で利用可能である。
関連論文リスト
- X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - EchoReel: Enhancing Action Generation of Existing Video Diffusion Models [88.46315262023045]
EchoReelは、既存のビデオからのモーションをエミュレートすることで、複雑なアクションを生成するためのVDMの機能を強化する新しいアプローチである。
Action Prismは参照ビデオからモーション情報を抽出する。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z) - Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis [4.866110274299399]
本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。
マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2022-07-16T10:32:27Z) - Video-based Smoky Vehicle Detection with A Coarse-to-Fine Framework [20.74110691914317]
75,000点の注釈付きスモーキー車両画像を用いた実世界の大規模スモーキー車両データセットを導入する。
また、セグメントレベルのアノテーションを備えた163の長いビデオを含む、スモーキーな車両ビデオデータセットも構築しています。
高速なスモーキー車両検出のための粗大きめのディープスモーキー車両検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-08T06:42:45Z) - Free Lunch for Surgical Video Understanding by Distilling
Self-Supervisions [40.26183297128028]
外科的ビデオ理解のための強力な,かつ効率的なセルフスーパービジョンフレームワークを提案する。
私たちの重要な洞察は、大規模なジェネリックデータセットでトレーニングされた、公開可能なモデルから知識を抽出することです。
当社のフレームワークは,低データ体制下では魅力的な優位性を示している。
論文 参考訳(メタデータ) (2022-05-19T02:46:44Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。