論文の概要: Learning dissection trajectories from expert surgical videos via imitation learning with equivariant diffusion
- arxiv url: http://arxiv.org/abs/2506.04716v1
- Date: Thu, 05 Jun 2025 07:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.590348
- Title: Learning dissection trajectories from expert surgical videos via imitation learning with equivariant diffusion
- Title(参考訳): 同変拡散を用いた模擬学習による専門的手術映像からの解離軌跡の学習
- Authors: Hongyu Wang, Yonghao Long, Yueyao Chen, Hon-Chi Yip, Markus Scheppach, Philip Wai-Yan Chiu, Yeung Yam, Helen Mei-Ling Meng, Qi Dou,
- Abstract要約: 内視鏡下粘膜下郭清ビデオにおける解離軌跡の予測は,術式訓練の強化に有意な可能性を秘めている。
学習のための等変表現を用いた入射拡散政策(iDPOE)について紹介する。
本手法は, 分割軌跡の性質を把握し, 連立状態の行動分布を通して専門家の行動をモデル化する。
我々は,等式を学習プロセスに埋め込むことで,幾何学的対称性に一般化するモデルの能力を高める。
- 参考スコア(独自算出の注目度): 14.860897869934867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Endoscopic Submucosal Dissection (ESD) is a well-established technique for removing epithelial lesions. Predicting dissection trajectories in ESD videos offers significant potential for enhancing surgical skill training and simplifying the learning process, yet this area remains underexplored. While imitation learning has shown promise in acquiring skills from expert demonstrations, challenges persist in handling uncertain future movements, learning geometric symmetries, and generalizing to diverse surgical scenarios. To address these, we introduce a novel approach: Implicit Diffusion Policy with Equivariant Representations for Imitation Learning (iDPOE). Our method models expert behavior through a joint state action distribution, capturing the stochastic nature of dissection trajectories and enabling robust visual representation learning across various endoscopic views. By incorporating a diffusion model into policy learning, iDPOE ensures efficient training and sampling, leading to more accurate predictions and better generalization. Additionally, we enhance the model's ability to generalize to geometric symmetries by embedding equivariance into the learning process. To address state mismatches, we develop a forward-process guided action inference strategy for conditional sampling. Using an ESD video dataset of nearly 2000 clips, experimental results show that our approach surpasses state-of-the-art methods, both explicit and implicit, in trajectory prediction. To the best of our knowledge, this is the first application of imitation learning to surgical skill development for dissection trajectory prediction.
- Abstract(参考訳): 内視鏡的粘膜下郭清術 (ESD) は, 上皮性病変を除去する技術として確立されている。
ESDビデオにおける解離軌跡の予測は、外科的スキルトレーニングの強化と学習過程の簡素化に重要な可能性を秘めている。
模倣学習は、専門家によるデモンストレーションからスキルを習得する上で有望である一方で、不確実な将来の動きへの対処、幾何学的対称性の学習、さまざまな手術シナリオへの一般化といった課題が続いている。
そこで本研究では,Imitation Learning (iDPOE) のための同変表現を用いたImlicit Diffusion Policyを提案する。
本手法は,関節状態の動作分布を通じて専門家の行動をモデル化し,解離軌跡の確率的性質を把握し,様々な内視鏡的視点における堅牢な視覚的表現学習を可能にする。
拡散モデルを政策学習に組み込むことで、iDPOEは効率的なトレーニングとサンプリングを確実にし、より正確な予測とより良い一般化をもたらす。
さらに、同値を学習プロセスに埋め込むことにより、幾何学的対称性に一般化するモデルの能力を高める。
状態のミスマッチに対処するため,条件付きサンプリングのための前処理誘導型アクション推論戦略を開発した。
約2000クリップのESDビデオデータセットを用いて,提案手法がトラジェクトリ予測において,明示的かつ暗黙的に,最先端の手法を超越していることを示す実験結果を得た。
我々の知る限りでは、解剖軌跡予測のための外科的スキル開発への模倣学習の初めての応用である。
関連論文リスト
- Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - RIDE: Self-Supervised Learning of Rotation-Equivariant Keypoint
Detection and Invariant Description for Endoscopy [83.4885991036141]
RIDEは回転同変検出と不変記述のための学習に基づく手法である。
内視鏡画像の大規模なキュレーションを自己指導的に行う。
マッチングと相対的なポーズ推定タスクに対して、最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-09-18T08:16:30Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - AdaMSS: Adaptive Multi-Modality Segmentation-to-Survival Learning for Survival Outcome Prediction from PET/CT Images [11.028672732944251]
深層学習に基づくディープサバイバルモデルは、医療画像からエンド・ツー・エンドのサバイバル予測を行うために広く採用されている。
近年のディープサバイバルモデルでは, 生存予測と共同で腫瘍セグメンテーションを行い, 有望な性能を達成している。
既存のディープサバイバルモデルは、マルチモダリティイメージを効果的に活用することはできない。
本稿では,融合戦略の適応最適化を実現する多モード情報を融合するためのデータ駆動型戦略を提案する。
論文 参考訳(メタデータ) (2023-05-17T04:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。