論文の概要: SurgOnAir: Hierarchy-Aware Real-Time Surgical Video Commentary
- arxiv url: http://arxiv.org/abs/2605.21132v1
- Date: Wed, 20 May 2026 13:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.684718
- Title: SurgOnAir: Hierarchy-Aware Real-Time Surgical Video Commentary
- Title(参考訳): SurgOnAir:階層型対応のリアルタイムビデオ解説
- Authors: Jingyi He, Yue Zhou, Long Bai, Kun Yuan, Nassir Navab, Yuan Bi,
- Abstract要約: SurgOnAirは、将来のアクセスなしにフレームを逐次処理し、ビジュアル入力が到着するとナレーショントークンを生成するビジョン言語モデルである。
このモデルは、外科手術の固有の階層を反映した多段階のテキスト応答を生成するように訓練されている。
実験によると、SurgOnAirは、手術ワークフローの複数の階層にわたるストリーミングを統合する単一の視覚言語モデルを通じて、リアルタイムの理解を可能にする。
- 参考スコア(独自算出の注目度): 44.963317589774284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding surgical workflow in real time is fundamental for intelligent surgical embodiment, where AI systems continuously perceive and respond as surgery proceeds. In the operating room, critical decisions depend on subtle, moment-to-moment changes, such as fine instrument movements and evolving tissue states, where even slight perceptual delays can limit assistance or compromise safety. Yet existing methods remain offline or operate at coarse temporal scales, generating descriptions only after processing clips, preventing immediate reaction. We address this by proposing SurgOnAir, a streaming vision-language model that processes frames sequentially without future access and progressively generates narration tokens as visual input arrives. SurgOnAir achieves fine-grained frame-to-token generation, enabling instant responsiveness to evolving surgical dynamics. Built upon our curated hierarchical dataset SurgOnAir-11k spanning action-, step-, and phase-level supervision, the model is trained to produce multi-level textual responses that reflect the inherent hierarchy of surgical procedures. Furthermore, special transition tokens are generated to explicitly mark state changes, allowing SurgOnAir to capture and signal key workflow transitions as they occur. Experiments show that SurgOnAir enables real-time understanding through a single vision-language model that unifies streaming across multiple hierarchies of the surgical workflow, generating superior and hierarchy-aware narrations. Code and dataset will be public.
- Abstract(参考訳): 外科的ワークフローをリアルタイムで理解することは、インテリジェントな外科的実施の基礎であり、手術が進むにつれて、AIシステムは継続的に知覚され、反応する。
手術室では、重要な決定は、微細な楽器の動きや組織状態の進化など、微妙で瞬間的な変化に依存する。
しかし、既存のメソッドはオフラインのまま、あるいは粗い時間スケールで動作し、クリップ処理後にのみ記述を生成し、即時反応を防止している。
SurgOnAirは、将来のアクセスなしにフレームを逐次処理し、視覚的な入力が到着するにつれて徐々にナレーショントークンを生成するストリーミングビジョン言語モデルである。
SurgOnAirは、微粒なフレーム・ツー・トケン生成を実現し、外科的ダイナミクスの進化に対する即時応答性を実現する。
得られた階層的データセットSurgOnAir-11kの動作-、ステップ-、フェーズレベルの監視に基づいて、このモデルは、外科手術の固有の階層を反映した多段階のテキスト応答を生成するように訓練されている。
さらに、状態変更を明示的にマークするために、特別なトランジショントークンが生成される。
実験によると、SurgOnAirは、手術ワークフローの複数の階層にわたるストリーミングを統一する単一の視覚言語モデルを通じて、リアルタイムの理解を可能にし、優れた階層認識のナレーションを生成する。
コードとデータセットは公開されます。
関連論文リスト
- Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics [2.582839864045357]
外科的段階とビデオからの段階を認識することは、コンピュータによる介入の基本的な問題である。
最近のアプローチでは、何千ものラベル付き外科的ビデオに大規模な事前トレーニングを頼りにしており、その後、特定の手順にゼロショットで移行している。
外科的位相とステップ認識のための教師なし手法であるテキスト拡張アクション最適輸送(TASOT)を提案する。
論文 参考訳(メタデータ) (2026-02-27T16:15:58Z) - Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion [54.359489807885616]
SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
論文 参考訳(メタデータ) (2026-01-18T02:14:08Z) - Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential [26.958261975749974]
手術シーンセグメンテーションに適した最初のスパイク駆動ビデオトランスフォーマーフレームワークである textitSpikeSurgSeg を提案する。
SpikeSurgSegは、SOTA ANNベースのモデルに匹敵するほとんどのmIoUを実現し、推論遅延を少なくとも8倍に削減する。
論文 参考訳(メタデータ) (2025-12-24T17:05:09Z) - Characterizing Motion Encoding in Video Diffusion Timesteps [50.13907856401258]
本研究では,映像拡散時間ステップにおける動きのエンコードについて,外観編集と動作保存のトレードオフによって検討する。
動作優位の早期体制と,その後に出現優位の体制を同定し,時間空間における動作優位の境界を導出する。
論文 参考訳(メタデータ) (2025-12-18T21:20:54Z) - State-Change Learning for Prediction of Future Events in Endoscopic Videos [8.258852831142017]
本稿ではSurgFUTRを紹介する。
ビデオクリップはSinkhorn-Knoppクラスタリングを介して状態表現に圧縮される。
我々は,短期(トリップレット,イベント)と長期(手術期間,フェーズ,ステップ遷移)の地平線にまたがる5つの予測タスクを持つSFPBenchを確立する。4つのデータセットと3つの手順による実験は,一貫した改善を示す。
論文 参考訳(メタデータ) (2025-10-14T18:25:03Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。