論文の概要: SurGrID: Controllable Surgical Simulation via Scene Graph to Image Diffusion
- arxiv url: http://arxiv.org/abs/2502.07945v1
- Date: Tue, 11 Feb 2025 20:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:29.086673
- Title: SurGrID: Controllable Surgical Simulation via Scene Graph to Image Diffusion
- Title(参考訳): SurGrID:Scene Graph to Image Diffusionによる制御可能な手術シミュレーション
- Authors: Yannik Frisch, Ssharvien Kumar Sivakumar, Çağhan Köksal, Elsa Böhm, Felix Wagner, Adrian Gericke, Ghazal Ghazaei, Anirban Mukhopadhyay,
- Abstract要約: 画像拡散モデルのためのシーングラフであるSurGrIDを導入し,手術シーンの合成を制御可能とした。
シーングラフは手術シーンのコンポーネントの空間的および意味的な情報をエンコードし、中間表現に変換する。
提案手法は、生成した画像の忠実度と、最先端のグラフ入力との整合性を改善する。
- 参考スコア(独自算出の注目度): 0.8680185045005854
- License:
- Abstract: Surgical simulation offers a promising addition to conventional surgical training. However, available simulation tools lack photorealism and rely on hardcoded behaviour. Denoising Diffusion Models are a promising alternative for high-fidelity image synthesis, but existing state-of-the-art conditioning methods fall short in providing precise control or interactivity over the generated scenes. We introduce SurGrID, a Scene Graph to Image Diffusion Model, allowing for controllable surgical scene synthesis by leveraging Scene Graphs. These graphs encode a surgical scene's components' spatial and semantic information, which are then translated into an intermediate representation using our novel pre-training step that explicitly captures local and global information. Our proposed method improves the fidelity of generated images and their coherence with the graph input over the state-of-the-art. Further, we demonstrate the simulation's realism and controllability in a user assessment study involving clinical experts. Scene Graphs can be effectively used for precise and interactive conditioning of Denoising Diffusion Models for simulating surgical scenes, enabling high fidelity and interactive control over the generated content.
- Abstract(参考訳): 手術シミュレーションは、通常の外科訓練に有望な追加を提供する。
しかし、利用可能なシミュレーションツールはフォトリアリズムに欠け、ハードコードされた振る舞いに依存している。
Denoising Diffusion Modelsは、高忠実な画像合成のための有望な代替手段であるが、既存の最先端条件付け手法では、生成されたシーンに対して正確な制御や対話性を提供するには不十分である。
画像拡散モデルのためのシーングラフであるSurGrIDを導入し,シーングラフを利用した手術シーンの合成を可能にする。
これらのグラフは手術現場の部位の空間的・意味的な情報をエンコードし,その情報を局所的・グローバル的情報を明示的にキャプチャする新たな事前学習ステップを用いて中間表現に変換する。
提案手法は、生成した画像の忠実度と、最先端のグラフ入力との整合性を改善する。
さらに,臨床専門家を対象としたユーザアセスメント研究において,シミュレーションの現実性とコントロール可能性を示す。
シーングラフは、手術シーンをシミュレートするDenoising Diffusion Modelsの正確かつインタラクティブな条件付けに有効に使用することができ、生成されたコンテンツの忠実度とインタラクティブな制御を可能にする。
関連論文リスト
- SimuScope: Realistic Endoscopic Synthetic Dataset Generation through Surgical Simulation and Diffusion Models [1.28795255913358]
そこで本研究では,最新のCASシステムに必要なアノテーションをすべて自動生成する,本格的な手術シミュレータを提案する。
手術器具と変形可能な解剖学的環境の間の力学を含む、より複雑で現実的な外科的相互作用のシミュレーションを提供する。
安定拡散と低ランク適応に基づく軽量でフレキシブルな画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:49:43Z) - EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion [77.0556470600979]
シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
論文 参考訳(メタデータ) (2024-05-02T00:04:02Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - MeshBrush: Painting the Anatomical Mesh with Neural Stylization for Endoscopy [0.8437187555622164]
スタイルトランスファーは、医療内視鏡におけるシミュレートとリアルのギャップを埋めるための有望なアプローチである。
術前スキャンによって合成内視鏡ビデオをレンダリングすると、構造的に正確なシミュレーションが生成される。
CycleGANはこれらのシミュレーションから現実的な内視鏡像を模倣することができるが、ビデオとビデオの合成には適さない。
時間的に一貫した映像を合成するニューラルネットワークスタイリング手法であるMeshBrushを提案する。
論文 参考訳(メタデータ) (2024-04-03T18:40:48Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Long-Term Temporally Consistent Unpaired Video Translation from
Simulated Surgical 3D Data [0.059110875077162096]
本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。
グローバル学習可能なテクスチャと照明不変のビューコンシスタンス損失を導入することにより,任意のビューの一貫した翻訳を生成する。
既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。
論文 参考訳(メタデータ) (2021-03-31T16:31:26Z) - Learning Ultrasound Rendering from Cross-Sectional Model Slices for
Simulated Training [13.640630434743837]
計算シミュレーションは、バーチャルリアリティーにおけるそのようなスキルの訓練を容易にする。
インタラクティブな時間に任意のレンダリングやシミュレーションプロセスをバイパスするためにここに提案します。
我々は、専用のジェネレータアーキテクチャと入力供給方式を備えた生成的対向フレームワークを使用する。
論文 参考訳(メタデータ) (2021-01-20T21:58:19Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。