論文の概要: HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation
- arxiv url: http://arxiv.org/abs/2506.21287v1
- Date: Thu, 26 Jun 2025 14:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.118005
- Title: HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation
- Title(参考訳): HieraSurg: 手術ビデオ生成のための階層型拡散モデル
- Authors: Diego Biagini, Nassir Navab, Azade Farshad,
- Abstract要約: 2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案する。
このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
- 参考スコア(独自算出の注目度): 44.37374628674769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical Video Synthesis has emerged as a promising research direction following the success of diffusion models in general-domain video generation. Although existing approaches achieve high-quality video generation, most are unconditional and fail to maintain consistency with surgical actions and phases, lacking the surgical understanding and fine-grained guidance necessary for factual simulation. We address these challenges by proposing HieraSurg, a hierarchy-aware surgical video generation framework consisting of two specialized diffusion models. Given a surgical phase and an initial frame, HieraSurg first predicts future coarse-grained semantic changes through a segmentation prediction model. The final video is then generated by a second-stage model that augments these temporal segmentation maps with fine-grained visual features, leading to effective texture rendering and integration of semantic information in the video space. Our approach leverages surgical information at multiple levels of abstraction, including surgical phase, action triplets, and panoptic segmentation maps. The experimental results on Cholecystectomy Surgical Video Generation demonstrate that the model significantly outperforms prior work both quantitatively and qualitatively, showing strong generalization capabilities and the ability to generate higher frame-rate videos. The model exhibits particularly fine-grained adherence when provided with existing segmentation maps, suggesting its potential for practical surgical applications.
- Abstract(参考訳): 一般領域ビデオ生成における拡散モデルの成功を契機に,手術ビデオ合成が有望な研究方向として登場した。
既存のアプローチは高品質のビデオ生成を実現するが、多くの場合は無条件であり、外科的動作やフェーズとの整合性を維持することができず、実際のシミュレーションに必要な外科的理解や詳細なガイダンスが欠如している。
2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案することで,これらの課題に対処する。
外科的フェーズと初期フレームが与えられた後、HieraSurgはまずセグメンテーション予測モデルにより、将来の粗い粒度のセマンティックな変化を予測する。
そして、最後のビデオは第2段階のモデルによって生成され、これら時間分割マップをきめ細かい視覚的特徴で拡張することで、効果的なテクスチャレンダリングとビデオ空間における意味情報の統合につながる。
本手法は, 手術段階, アクション・トリプレット, 汎視的セグメンテーション・マップなど, 複数の抽象化レベルにおける手術情報を活用する。
胆嚢摘出術の手術ビデオ生成実験の結果, このモデルは, 定量的, 定性的に, 高い一般化能力と高いフレームレートビデオを生成する能力を示す先行作業よりも有意に優れていた。
このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
関連論文リスト
- SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。