論文の概要: Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2510.24332v1
- Date: Tue, 28 Oct 2025 11:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.102274
- Title: Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes
- Title(参考訳): ダイナミックシーンにおける手術行動の空間マッピングのための音源定位
- Authors: Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof, Bastian Sigrist, Philipp Fürnstahl, Matthias Seibold,
- Abstract要約: 本研究は,3次元音響情報を統合することにより,手術シーンの表現性を高めることを目的とする。
手術シーンの4次元映像表現を生成するための新しい枠組みを提案する。
提案するフレームワークにより,コンテキスト理解の充実が図られ,今後のインテリジェントな手術システムの基礎となる。
- 参考スコア(独自算出の注目度): 0.5146940511526402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Purpose: Surgical scene understanding is key to advancing computer-aided and intelligent surgical systems. Current approaches predominantly rely on visual data or end-to-end learning, which limits fine-grained contextual modeling. This work aims to enhance surgical scene representations by integrating 3D acoustic information, enabling temporally and spatially aware multimodal understanding of surgical environments. Methods: We propose a novel framework for generating 4D audio-visual representations of surgical scenes by projecting acoustic localization information from a phased microphone array onto dynamic point clouds from an RGB-D camera. A transformer-based acoustic event detection module identifies relevant temporal segments containing tool-tissue interactions which are spatially localized in the audio-visual scene representation. The system was experimentally evaluated in a realistic operating room setup during simulated surgical procedures performed by experts. Results: The proposed method successfully localizes surgical acoustic events in 3D space and associates them with visual scene elements. Experimental evaluation demonstrates accurate spatial sound localization and robust fusion of multimodal data, providing a comprehensive, dynamic representation of surgical activity. Conclusion: This work introduces the first approach for spatial sound localization in dynamic surgical scenes, marking a significant advancement toward multimodal surgical scene representations. By integrating acoustic and visual data, the proposed framework enables richer contextual understanding and provides a foundation for future intelligent and autonomous surgical systems.
- Abstract(参考訳): 目的: 手術シーン理解は, コンピュータ支援, インテリジェントな手術システム構築の鍵となる。
現在のアプローチは視覚データやエンド・ツー・エンドの学習に大きく依存している。
本研究は,3次元音響情報を統合することにより,手術環境の時間的・空間的理解を両立させることにより,手術シーンの表現性を高めることを目的とする。
方法: RGB-Dカメラから音像定位情報を動的点雲に投影することで, 手術シーンの4次元音声視覚表現を生成する新しい枠組みを提案する。
変圧器を用いた音響事象検出モジュールは、音声・視覚シーン表現において空間的局所化されるツール・タスク相互作用を含む関連時間セグメントを識別する。
本システムは, 専門家による模擬外科手術において, リアルな手術室構成で実験的に評価した。
結果: 提案手法は3次元空間における外科的音響事象の局所化に成功し, それらと視覚的シーン要素を関連付ける。
実験により, 正確な空間音像定位とマルチモーダルデータの堅牢な融合が示され, 外科的活動の包括的, 動的表現を提供する。
結論: 本研究は, ダイナミックな手術シーンにおける空間音像定位への最初のアプローチを導入し, マルチモーダルな手術シーン表現への顕著な進歩を示す。
音響的および視覚的データを統合することにより、提案するフレームワークは、よりリッチなコンテキスト理解を可能にし、将来のインテリジェントで自律的な手術システムの基礎を提供する。
関連論文リスト
- SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting [45.16104996137126]
本稿では,このギャップを埋めるために,新しいテキストプロンプタブルなガウス分割法であるSurgTPGSを提案する。
本研究では,意味的特徴のシームレスな変形を捉え,テクスチャと意味的特徴の双方をより正確に再構築する意味認識変形追跡法を提案する。
本研究では,SurgTPGSの最先端技術に対する優位性を示すために,実世界の2つの外科的データセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2025-06-29T15:55:01Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - BASED: Bundle-Adjusting Surgical Endoscopic Dynamic Video Reconstruction using Neural Radiance Fields [5.773068487121897]
内視鏡的映像から変形可能なシーンを再現することは,多くの応用において重要である。
我々の研究は、シーンの3D暗黙的表現を学習するために、NeRF(Neural Radiance Fields)アプローチを採用しています。
本稿では,ロボット手術の内視鏡的手術シーンについて述べる。
論文 参考訳(メタデータ) (2023-09-27T00:20:36Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with
Transformer-based Stereoscopic Depth Perception [15.927060244702686]
28 fpsの高ダイナミックな手術シーンに対して,効率的な再建パイプラインを提案する。
具体的には,効率的な深度推定のための変圧器を用いた立体視深度知覚を設計する。
提案したパイプラインを,公開Hamlyn Centre内視鏡ビデオデータセットと社内のDaVinciロボット手術データセットの2つのデータセットで評価した。
論文 参考訳(メタデータ) (2021-07-01T05:57:41Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。