Fugu-MT 論文翻訳(概要): VISAGE: Video Synthesis using Action Graphs for Surgery

論文の概要: VISAGE: Video Synthesis using Action Graphs for Surgery

arxiv url: http://arxiv.org/abs/2410.17751v2
Date: Wed, 30 Oct 2024 10:13:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.414195
Title: VISAGE: Video Synthesis using Action Graphs for Surgery
Title（参考訳）: VISAGE: 手術用アクショングラフを用いたビデオ合成
Authors: Yousef Yeganeh, Rachmadio Lazuardi, Amir Shamseddin, Emine Dari, Yash Thirani, Nassir Navab, Azade Farshad,
Abstract要約: 腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
参考スコア（独自算出の注目度）: 34.21344214645662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Surgical data science (SDS) is a field that analyzes patient data before, during, and after surgery to improve surgical outcomes and skills. However, surgical data is scarce, heterogeneous, and complex, which limits the applicability of existing machine learning methods. In this work, we introduce the novel task of future video generation in laparoscopic surgery. This task can augment and enrich the existing surgical data and enable various applications, such as simulation, analysis, and robot-aided surgery. Ultimately, it involves not only understanding the current state of the operation but also accurately predicting the dynamic and often unpredictable nature of surgical procedures. Our proposed method, VISAGE (VIdeo Synthesis using Action Graphs for Surgery), leverages the power of action scene graphs to capture the sequential nature of laparoscopic procedures and utilizes diffusion models to synthesize temporally coherent video sequences. VISAGE predicts the future frames given only a single initial frame, and the action graph triplets. By incorporating domain-specific knowledge through the action graph, VISAGE ensures the generated videos adhere to the expected visual and motion patterns observed in real laparoscopic procedures. The results of our experiments demonstrate high-fidelity video generation for laparoscopy procedures, which enables various applications in SDS.
Abstract（参考訳）: 外科データ科学 (SDS) は、手術前後の患者のデータを分析し、手術の成績や技術を改善する分野である。しかし、外科的データは乏しく、異質であり、複雑であり、既存の機械学習手法の適用性を制限している。本稿では,腹腔鏡下手術における映像生成の新たな課題について紹介する。このタスクは、既存の手術データを増強し、強化し、シミュレーション、分析、ロボット支援手術などの様々な応用を可能にする。最終的には、手術の現在の状態を理解するだけでなく、外科手術の動的かつしばしば予測不能な性質を正確に予測する。提案手法であるVISAGE (VIdeo Synthesis using Action Graphs for Surgery) は,動作シーングラフのパワーを利用して腹腔鏡下手術のシーケンシャルな特徴を捉え,時間的コヒーレントな映像シーケンスを合成するために拡散モデルを利用する。 VISAGEは1つの初期フレームとアクショングラフ三つ子しか与えられない将来のフレームを予測する。アクショングラフを通じてドメイン固有の知識を組み込むことで、VISAGEは生成したビデオが実際の腹腔鏡下手術で観察される期待される視覚的および運動的パターンに忠実であることを保証する。本実験は, 腹腔鏡下手術における高忠実度映像生成を実証し, SDS の様々な応用を可能にした。

関連論文リスト

SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳（メタデータ） (2024-06-13T14:47:57Z)
CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文参考訳（メタデータ） (2024-03-21T15:13:36Z)
Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2024-02-03T00:58:05Z)
AiAReSeg: Catheter Detection and Segmentation in Interventional Ultrasound using Transformers [75.20925220246689]
血管内手術は、電離放射線を用いてカテーテルと血管を可視化するFluoroscopyの黄金標準を用いて行われる。本研究では、最先端機械学習トランスフォーマアーキテクチャを応用して、軸干渉超音波画像シーケンス中のカテーテルを検出し、セグメント化する手法を提案する。
論文参考訳（メタデータ） (2023-09-25T19:34:12Z)
Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文参考訳（メタデータ） (2023-09-02T14:52:58Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
GLSFormer : Gated - Long, Short Sequence Transformer for Step Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-07-20T17:57:04Z)
AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文参考訳（メタデータ） (2022-08-03T13:17:23Z)
Know your sensORs $\unicode{x2013}$ A Modality Study For Surgical Action Classification [39.546197658791]
医療コミュニティは、この豊富なデータを活用して、介入ケアを推進し、コストを下げ、患者の成果を改善する自動化手法を開発しようとしている。既存のORルームカメラのデータセットは、これまではサイズやモダリティが限られていたため、ビデオから外科的アクションを認識するなどのタスクに、どのセンサーのモダリティが最適かは明らかになっていない。本研究は, 画像のモダリティによって, 手術時の動作認識性能が変化することを示す。
論文参考訳（メタデータ） (2022-03-16T15:01:17Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文参考訳（メタデータ） (2020-05-12T15:41:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。