論文の概要: RGA-Net: A Vision Enhancement Framework for Robotic Surgical Systems Using Reciprocal Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2602.13726v1
- Date: Sat, 14 Feb 2026 11:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.363092
- Title: RGA-Net: A Vision Enhancement Framework for Robotic Surgical Systems Using Reciprocal Attention Mechanisms
- Title(参考訳): RGA-Net:相互注意機構を用いたロボット手術システムのためのビジョン強化フレームワーク
- Authors: Quanjun Li, Weixuan Li, Han Xia, Junhua Zhou, Chi-Man Pun, Xuhang Chen,
- Abstract要約: RGA-Netは、ロボット手術における煙除去に特化した新しいディープラーニングフレームワークである。
本稿では, 階層型エンコーダデコーダアーキテクチャを用いて, 手術用煙を含む高密度非均一分布と複雑な光散乱の課題に対処する。
- 参考スコア(独自算出の注目度): 25.435178288442597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic surgical systems rely heavily on high-quality visual feedback for precise teleoperation; yet, surgical smoke from energy-based devices significantly degrades endoscopic video feeds, compromising the human-robot interface and surgical outcomes. This paper presents RGA-Net (Reciprocal Gating and Attention-fusion Network), a novel deep learning framework specifically designed for smoke removal in robotic surgery workflows. Our approach addresses the unique challenges of surgical smoke-including dense, non-homogeneous distribution and complex light scattering-through a hierarchical encoder-decoder architecture featuring two key innovations: (1) a Dual-Stream Hybrid Attention (DHA) module that combines shifted window attention with frequency-domain processing to capture both local surgical details and global illumination changes, and (2) an Axis-Decomposed Attention (ADA) module that efficiently processes multi-scale features through factorized attention mechanisms. These components are connected via reciprocal cross-gating blocks that enable bidirectional feature modulation between encoder and decoder pathways. Extensive experiments on the DesmokeData and LSD3K surgical datasets demonstrate that RGA-Net achieves superior performance in restoring visual clarity suitable for robotic surgery integration. Our method enhances the surgeon-robot interface by providing consistently clear visualization, laying a technical foundation for alleviating surgeons' cognitive burden, optimizing operation workflows, and reducing iatrogenic injury risks in minimally invasive procedures. These practical benefits could be further validated through future clinical trials involving surgeon usability assessments. The proposed framework represents a significant step toward more reliable and safer robotic surgical systems through computational vision enhancement.
- Abstract(参考訳): ロボット手術システムは、正確な遠隔操作のために高品質な視覚フィードバックに大きく依存するが、エネルギーベースの装置による手術用煙は、内視鏡的ビデオフィードを著しく劣化させ、人間のロボットインターフェースと手術結果に悪影響を及ぼす。
本稿では,ロボット手術ワークフローにおける煙除去に特化した新しいディープラーニングフレームワークであるRGA-Netを提案する。
提案手法は,2つの重要なイノベーションを特徴とする階層型エンコーダ・デコーダアーキテクチャを介し,手術用煙を含む高密度・非均一な分布と複雑な光散乱のユニークな課題に対処するものである。(1) 局所的な外科的詳細と大域的な照明変化の両方を捉えるために,シフト窓の注意と周波数領域処理を組み合わせたDHA(Dual-Stream Hybrid Attention)モジュール,(2) 分解された注意機構を通じて,マルチスケール特徴を効率的に処理するADA(Axis-Decomposed Attention)モジュールである。
これらのコンポーネントは相互に交差するブロックを介して接続され、エンコーダとデコーダの経路間の双方向の特徴変調を可能にする。
DesmokeDataとLSD3Kの手術データセットに対する大規模な実験により、RGA-Netは、ロボット手術統合に適した視覚的明快さの回復において、優れたパフォーマンスを発揮することが示された。
本手法は,外科医の認知的負担を軽減するための技術基盤を築き,手術ワークフローを最適化し,最小侵襲で手術を行う際の心因性外傷のリスクを軽減することによって,外科医とロボットのインターフェースを一貫した可視化を提供することによって強化する。
これらの実用的利点は、今後、外科医のユーザビリティ評価を含む臨床試験を通じてさらに検証される可能性がある。
提案フレームワークは,コンピュータビジョンの強化を通じて,より信頼性が高く,より安全な手術システムを実現するための重要なステップである。
関連論文リスト
- SurgiATM: A Physics-Guided Plug-and-Play Model for Deep Learning-Based Smoke Removal in Laparoscopic Surgery [16.71481757853012]
組織因果によって生じる煙は、内視鏡的フレームの視覚的品質を著しく低下させる。
外科的煙除去のための外科的大気モデル(SurgiATM)を提案する。
SurgiATMは物理に基づく大気モデルとデータ駆動ディープラーニングモデルを統計的に橋渡しする。
論文 参考訳(メタデータ) (2025-11-07T08:04:24Z) - Toward Reliable AR-Guided Surgical Navigation: Interactive Deformation Modeling with Data-Driven Biomechanics and Prompts [21.952265898720825]
本稿では,計算効率を向上しつつ,FEMレベルの精度を維持するデータ駆動アルゴリズムを提案する。
変形モデリングプロセスに新たなヒューマン・イン・ザ・ループ機構を導入する。
提案アルゴリズムは, 平均目標登録誤差を3.42mmとし, ボリューム精度で最先端の手法を超越した。
論文 参考訳(メタデータ) (2025-06-08T14:19:54Z) - Benchmarking Laparoscopic Surgical Image Restoration and Beyond [54.28852320829451]
腹腔鏡下手術では、明瞭で高品質な視野が外科医の正確な判断に不可欠である。
持続的な視覚劣化、例えば、エネルギー装置によって発生する煙、熱勾配から光るレンズ、およびレンズ汚染は患者の安全に危険をもたらす。
本稿では,SurgCleanと呼ばれる腹腔鏡下環境を対象とするオープンソースの手術画像復元データセットについて紹介する。
論文 参考訳(メタデータ) (2025-05-25T14:17:56Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection [50.388465935739376]
術前の3Dモデルを術中2Dフレームにオーバーレイすることで肝臓の空間解剖を明瞭に把握し,より高い手術成功率を達成することができる。
既存の登録法は解剖学的ランドマークに大きく依存しており、2つの大きな制限に直面している。
本稿では,効果的な自己教師型学習を生かした,目覚ましくない術前・術中登録フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T14:55:57Z) - Surgical Temporal Action-aware Network with Sequence Regularization for
Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。
MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。
我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文 参考訳(メタデータ) (2023-11-21T13:43:16Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Spatiotemporal-Aware Augmented Reality: Redefining HCI in Image-Guided
Therapy [39.370739217840594]
拡張現実(AR)はこの10年で手術室に導入されている。
本稿では、ヘッドマウントディスプレイの利点をフル活用して、模範的な可視化をいかに再定義するかを示す。
X線画像の幾何学的および物理的特性からシステムの認識は、異なるヒューマン・マシン・インタフェースの再定義を可能にする。
論文 参考訳(メタデータ) (2020-03-04T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。