Fugu-MT 論文翻訳(概要): Dynamic Scene Graph Representation for Surgical Video

論文の概要: Dynamic Scene Graph Representation for Surgical Video

arxiv url: http://arxiv.org/abs/2309.14538v2
Date: Tue, 24 Oct 2023 10:24:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 23:22:53.249442
Title: Dynamic Scene Graph Representation for Surgical Video
Title（参考訳）: 手術ビデオのための動的シーングラフ表現
Authors: Felix Holm, Ghazal Ghazaei, Tobias Czempiel, Ege \"Ozsoy, Stefan Saur, Nassir Navab
Abstract要約: 我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。 CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
参考スコア（独自算出の注目度）: 37.22552586793163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surgical videos captured from microscopic or endoscopic imaging devices are rich but complex sources of information, depicting different tools and anatomical structures utilized during an extended amount of time. Despite containing crucial workflow information and being commonly recorded in many procedures, usage of surgical videos for automated surgical workflow understanding is still limited. In this work, we exploit scene graphs as a more holistic, semantically meaningful and human-readable way to represent surgical videos while encoding all anatomical structures, tools, and their interactions. To properly evaluate the impact of our solutions, we create a scene graph dataset from semantic segmentations from the CaDIS and CATARACTS datasets. We demonstrate that scene graphs can be leveraged through the use of graph convolutional networks (GCNs) to tackle surgical downstream tasks such as surgical workflow recognition with competitive performance. Moreover, we demonstrate the benefits of surgical scene graphs regarding the explainability and robustness of model decisions, which are crucial in the clinical setting.
Abstract（参考訳）: 顕微鏡または内視鏡画像装置から撮影された手術ビデオは、豊富なが複雑な情報源であり、様々なツールや解剖学的構造が長い時間で利用される。重要なワークフロー情報を含み、多くの手順で一般的に記録されているにもかかわらず、外科的ワークフロー理解のための外科的ビデオの使用は依然として限られている。本研究では,すべての解剖学的構造,ツール,およびそれらの相互作用をエンコードしながら,手術ビデオを表現するためのより包括的,意味的に有意義で可読な方法としてシーングラフを利用する。ソリューションの影響を適切に評価するために、cadisと白内障データセットのセマンティックセグメンテーションからシーングラフデータセットを作成します。本稿では,グラフ畳み込みネットワーク(gcns)を用いて,手術下下流の作業,例えば外科的ワークフロー認識や競合性能に対処し,シーングラフを活用できることを実証する。さらに, 臨床現場において重要なモデル決定の説明可能性とロバスト性に関して, 外科的シーングラフの有用性を示す。

関連論文リスト

Data-Efficient Learning for Generalizable Surgical Video Understanding [0.0]
本研究は, 深層学習に基づく外科的ビデオ解析と実世界の臨床環境とのギャップを埋めることを目的としている。私は最先端のニューラルネットワークアーキテクチャをベンチマークして、各タスクの最も効果的な設計を特定しました。我々は,大量の未ラベルの手術ビデオを活用することにより,タスク間のモデル性能を向上させる半駆動型フレームワークを開発した。
論文参考訳（メタデータ） (2025-08-13T22:00:23Z)
Towards Holistic Surgical Scene Graph [2.6272547208243338]
手術シーンの理解はコンピュータによる介入システムにとって不可欠である。手術シーンにおける複雑な情報を表現するため,グラフに基づくアプローチが検討されている。本研究では,ツール-アクション-ターゲットの組み合わせと手動識別のためのアノテーションを含むEndoscapes-SG201データセットを提案する。また,これらの重要な要素を学習し,表現するためのグラフベースの手法であるSSG-Comを紹介する。
論文参考訳（メタデータ） (2025-07-21T12:10:42Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding [1.024113475677323]
データセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げる。本稿では,専門家を観察し,その説明を理解するための人間の学習手順から着想を得た,データの空間性と不均一性に対処する新しいアプローチを提案する。手術領域に既存のデータセットが存在しないにもかかわらず,この課題に対処するため,外科的ビデオの高密度字幕化(DVC)のための最初の包括的ソリューションを提示する。
論文参考訳（メタデータ） (2025-03-14T13:36:13Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction [37.86132786212667]
手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。 CATARACTSデータセットのSOTAの精度は8%,F1スコアは10%向上した。
論文参考訳（メタデータ） (2024-07-29T17:44:34Z)
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。 66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。 OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文参考訳（メタデータ） (2024-06-11T17:18:11Z)
Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文参考訳（メタデータ） (2023-09-02T14:52:58Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文参考訳（メタデータ） (2020-07-09T01:39:39Z)
Learning and Reasoning with the Graph Structure Representation in Robotic Surgery [15.490603884631764]
グラフ表現を推論する学習は、ロボット手術における外科的シーン理解において重要な役割を果たす。我々は,シーングラフを作成し,楽器と外科的関心領域の間の外科的相互作用を予測する手法を開発した。
論文参考訳（メタデータ） (2020-07-07T11:49:34Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。