Fugu-MT 論文翻訳(概要): Self-Supervised Video Desmoking for Laparoscopic Surgery

論文の概要: Self-Supervised Video Desmoking for Laparoscopic Surgery

arxiv url: http://arxiv.org/abs/2403.11192v1
Date: Sun, 17 Mar 2024 12:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:06:05.343005
Title: Self-Supervised Video Desmoking for Laparoscopic Surgery
Title（参考訳）: 腹腔鏡下手術における自己監督型ビデオ禁煙法
Authors: Renlong Wu, Zhilu Zhang, Shuohao Zhang, Longfei Gou, Haobin Chen, Lei Zhang, Hao Chen, Wangmeng Zuo,
Abstract要約: 自己監督型手術ビデオデモーキング(SelfSVD)について紹介する。高エネルギー装置の起動前に捕捉したフレームは一般に明確である(プレスモークフレーム、PSフレーム)。さらに、PSフレームからモデルに貴重な情報を供給し、マスキング戦略と正規化項を提示し、自明な解決策を避ける。
参考スコア（独自算出の注目度）: 48.83900673665993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the difficulty of collecting real paired data, most existing desmoking methods train the models by synthesizing smoke, generalizing poorly to real surgical scenarios. Although a few works have explored single-image real-world desmoking in unpaired learning manners, they still encounter challenges in handling dense smoke. In this work, we address these issues together by introducing the self-supervised surgery video desmoking (SelfSVD). On the one hand, we observe that the frame captured before the activation of high-energy devices is generally clear (named pre-smoke frame, PS frame), thus it can serve as supervision for other smoky frames, making real-world self-supervised video desmoking practically feasible. On the other hand, in order to enhance the desmoking performance, we further feed the valuable information from PS frame into models, where a masking strategy and a regularization term are presented to avoid trivial solutions. In addition, we construct a real surgery video dataset for desmoking, which covers a variety of smoky scenes. Extensive experiments on the dataset show that our SelfSVD can remove smoke more effectively and efficiently while recovering more photo-realistic details than the state-of-the-art methods. The dataset, codes, and pre-trained models are available at \url{https://github.com/ZcsrenlongZ/SelfSVD}.
Abstract（参考訳）: 実際のペアデータを集めるのが困難であるため、既存の喫煙法のほとんどは、煙を合成してモデルを訓練し、実際の手術シナリオに不適当に一般化する。未経験の学習方法で、シングルイメージの現実世界の喫煙を探索する研究はいくつかあるが、密煙を扱う上ではまだ課題に直面している。本研究では,自己監督型手術ビデオデモーキング(SelfSVD)を導入することで,これらの課題に対処する。一方、高エネルギー装置の起動前に捕捉したフレームは、一般的には明確であり(前煙フレーム、PSフレーム)、他のスモーキーフレームの監視として機能し、現実の自己監督型ビデオデモーキングを現実的に実現可能である。一方, デスモーキング性能を向上させるため, マスク戦略と正規化項が提示され, 自明な解決を避けるためにPSフレームからモデルに貴重な情報を与える。さらに,各種のスモーキーシーンをカバーした,デ喫煙のためのリアルな手術ビデオデータセットを構築した。データセットの大規模な実験により、私たちのSelfSVDは、最先端の手法よりもよりリアルな詳細を回復しながら、より効率的かつ効率的に煙を除去できることがわかった。データセット、コード、事前トレーニングされたモデルは、 \url{https://github.com/ZcsrenlongZ/SelfSVD}で利用可能である。

関連論文リスト

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:41:56Z)
TACO: Taming Diffusion for in-the-wild Video Amodal Completion [32.474824991167424]
本稿では,ビデオ全体を通して一貫したオブジェクトを生成することを目的とした,ビデオ・アモーダル・コンプリート(VAC)の課題に取り組む。本稿では,事前学習したビデオ拡散モデルを利用した条件付き拡散モデルTACOを提案する。 TACOの汎用性は、インターネットから広範囲のWildビデオと、自律運転で一般的に使用される多様な未確認データセットで実証する。
論文参考訳（メタデータ） (2025-03-15T08:47:45Z)
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文参考訳（メタデータ） (2025-03-14T17:59:31Z)
Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文参考訳（メタデータ） (2025-03-13T17:40:07Z)
LSD3K: A Benchmark for Smoke Removal from Laparoscopic Surgery Images [0.7138611948315257]
腹腔鏡下手術で手術器具が生み出す煙は視野を曖昧にし、外科医が正確に安全に手術を行う能力を損なう。近年、腹腔鏡画像の喫煙が研究者の注目を集めているが、このタスクの開発を妨害する主要なボトルネックは、公開可能な高品質なベンチマークデータセットの欠如である。我々は, 3000対の合成非均一煙像からなる, LSD3Kと呼ばれる腹腔鏡下手術画像デスモーキングのための新しい高品質データセットを構築した。
論文参考訳（メタデータ） (2024-07-18T03:42:16Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data [20.23001319056999]
拡散に基づく生成モデルは、最近顕著な画像編集機能とビデオ編集機能を示している。本研究は,動画における一貫した局所属性除去のケーススタディとして,映像中の眼鏡の一貫性とアイデンティティ保護の除去に焦点をあてる。データ不完全にもかかわらず、当社のモデルは元のビデオコンテンツを保存しながら、所望の編集を一貫して行うことができることを示す。
論文参考訳（メタデータ） (2024-06-20T17:14:43Z)
VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文参考訳（メタデータ） (2024-02-20T16:39:23Z)
Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文参考訳（メタデータ） (2024-01-25T13:27:03Z)
ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-05-03T13:24:06Z)
DiffDreamer: Towards Consistent Unsupervised Single-view Scene Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文参考訳（メタデータ） (2022-11-22T10:06:29Z)
Video-based Smoky Vehicle Detection with A Coarse-to-Fine Framework [20.74110691914317]
75,000点の注釈付きスモーキー車両画像を用いた実世界の大規模スモーキー車両データセットを導入する。また、セグメントレベルのアノテーションを備えた163の長いビデオを含む、スモーキーな車両ビデオデータセットも構築しています。高速なスモーキー車両検出のための粗大きめのディープスモーキー車両検出フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-08T06:42:45Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。