Fugu-MT 論文翻訳(概要): Exploiting Segment-level Semantics for Online Phase Recognition from Surgical Videos

論文の概要: Exploiting Segment-level Semantics for Online Phase Recognition from Surgical Videos

arxiv url: http://arxiv.org/abs/2111.11044v1
Date: Mon, 22 Nov 2021 08:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-23 16:16:44.399158
Title: Exploiting Segment-level Semantics for Online Phase Recognition from Surgical Videos
Title（参考訳）: 手術映像からのオンライン位相認識におけるセグメントレベルセマンティクスの活用
Authors: Xinpeng Ding and Xiaomeng Li
Abstract要約: ビデオから外科的位相認識のためのセグメント適応階層整合性ネットワーク(SAHC)を提案する。フレームとその対応するセグメントの予測を一貫性損失によって正規化することにより、ネットワークはセマンティック一貫性のあるセグメントを生成することができる。実験の結果,本手法は従来の最先端技術よりも大きなマージンで優れていることがわかった。
参考スコア（独自算出の注目度）: 13.858624044986811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic surgical phase recognition plays an important role in robot-assisted surgeries. Existing methods ignored a pivotal problem that surgical phases should be classified by learning segment-level semantics instead of solely relying on frame-wise information. In this paper, we present a segment-attentive hierarchical consistency network (SAHC) for surgical phase recognition from videos. The key idea is to extract hierarchical high-level semantic-consistent segments and use them to refine the erroneous predictions caused by ambiguous frames. To achieve it, we design a temporal hierarchical network to generate hierarchical high-level segments. Then, we introduce a hierarchical segment-frame attention (SFA) module to capture relations between the low-level frames and high-level segments. By regularizing the predictions of frames and their corresponding segments via a consistency loss, the network can generate semantic-consistent segments and then rectify the misclassified predictions caused by ambiguous low-level frames. We validate SAHC on two public surgical video datasets, i.e., the M2CAI16 challenge dataset and the Cholec80 dataset. Experimental results show that our method outperforms previous state-of-the-arts by a large margin, notably reaches 4.1% improvements on M2CAI16. Code will be released at GitHub upon acceptance.
Abstract（参考訳）: 自動手術位相認識はロボット支援手術において重要な役割を担っている。既存の手法では、フレーム情報のみに頼るのではなく、セグメントレベルのセマンティクスを学習することで手術段階を分類すべきという重要な問題を無視している。本稿では,ビデオからの手術相認識のためのセグメント対応階層的一貫性ネットワーク(sahc)を提案する。鍵となる考え方は、階層的な高レベルの意味一貫性セグメントを抽出し、不明瞭なフレームによる誤った予測を洗練させることである。そこで我々は,時間階層ネットワークを設計し,階層的な高レベルセグメントを生成する。次に,低レベルフレームと高レベルセグメントの関係をキャプチャする階層的セグメントフレームアテンション(sfa)モジュールを提案する。整合性損失によりフレームとその対応するセグメントの予測を正規化することにより、ネットワークはセマンティック一貫性のあるセグメントを生成し、曖昧な低レベルフレームによる誤分類予測を修正できる。我々は,M2CAI16チャレンジデータセットとCholec80データセットの2つの公開手術ビデオデータセット上でSAHCを検証する。実験の結果,M2CAI16の精度は4.1%向上した。コードは受け入れ次第githubでリリースされる。

関連論文リスト

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking [15.83425997240828]
ReSurgSAM2は2段階の外科的セグメンテーションフレームワークである。クロスモーダルな時空間マンバを用いて正確な検出とセグメンテーション結果を生成する。信頼性と多様なメモリバンクを維持し、一貫した長期追跡を保証する、多様性駆動型メモリ機構を備えている。
論文参考訳（メタデータ） (2025-05-13T13:56:10Z)
SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection [16.89965584177711]
近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)検出手法は,補助的な記述を生成するために大規模言語モデル(LLM)に依存し,CLIPから抽出した知識を活用して未知の相互作用カテゴリを検出する。 1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
論文参考訳（メタデータ） (2025-03-01T09:26:05Z)
Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions [19.741453194665276]
階層型音声認識の新しい課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。階層認識に対するアプローチの有効性を実証し,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-05-28T01:17:22Z)
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [91.91385816767057]
オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。 SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
論文参考訳（メタデータ） (2023-11-27T05:00:38Z)
Feature Enhancer Segmentation Network (FES-Net) for Vessel Segmentation [19.455350961592742]
本稿では,画像強調ステップを必要とせずに正確な画素分割を実現する機能拡張セグメンテーションネットワーク(FES-Net)を提案する。 FES-Netは入力画像を直接処理し、ダウンサンプリング中に4つのプロンプト畳み込みブロック(PCB)を利用する。 DRIVE, STARE, CHASE, HRFの4つの公開技術データセット上でのFES-Netの性能を評価する。
論文参考訳（メタデータ） (2023-09-07T07:46:46Z)
Self-Supervised Correction Learning for Semi-Supervised Biomedical Image Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-01-12T08:19:46Z)
Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images [55.83984261827332]
本稿では,信頼性の高いマルチスケールウェーブレットエンハンストランスネットワークを提案する。本研究では,ウェーブレット型特徴抽出器ネットワークとマルチスケール変圧器モジュールを統合したセグメンテーションバックボーンを開発した。提案手法は,他の最先端セグメンテーション手法と比較して信頼性の高いセグメンテーション精度を実現する。
論文参考訳（メタデータ） (2022-12-01T07:32:56Z)
Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文参考訳（メタデータ） (2022-08-01T14:43:15Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
TraSeTR: Track-to-Segment Transformer with Contrastive Query for Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。 TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文参考訳（メタデータ） (2022-02-17T05:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。