論文の概要: State-Change Learning for Prediction of Future Events in Endoscopic Videos
- arxiv url: http://arxiv.org/abs/2510.12904v1
- Date: Tue, 14 Oct 2025 18:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.381412
- Title: State-Change Learning for Prediction of Future Events in Endoscopic Videos
- Title(参考訳): 内視鏡映像における事象予測のための状態変化学習
- Authors: Saurav Sharma, Chinedu Innocent Nwoye, Didier Mutter, Nicolas Padoy,
- Abstract要約: 本稿ではSurgFUTRを紹介する。
ビデオクリップはSinkhorn-Knoppクラスタリングを介して状態表現に圧縮される。
我々は,短期(トリップレット,イベント)と長期(手術期間,フェーズ,ステップ遷移)の地平線にまたがる5つの予測タスクを持つSFPBenchを確立する。4つのデータセットと3つの手順による実験は,一貫した改善を示す。
- 参考スコア(独自算出の注目度): 8.258852831142017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Surgical future prediction, driven by real-time AI analysis of surgical video, is critical for operating room safety and efficiency. It provides actionable insights into upcoming events, their timing, and risks-enabling better resource allocation, timely instrument readiness, and early warnings for complications (e.g., bleeding, bile duct injury). Despite this need, current surgical AI research focuses on understanding what is happening rather than predicting future events. Existing methods target specific tasks in isolation, lacking unified approaches that span both short-term (action triplets, events) and long-term horizons (remaining surgery duration, phase transitions). These methods rely on coarse-grained supervision while fine-grained surgical action triplets and steps remain underexplored. Furthermore, methods based only on future feature prediction struggle to generalize across different surgical contexts and procedures. We address these limits by reframing surgical future prediction as state-change learning. Rather than forecasting raw observations, our approach classifies state transitions between current and future timesteps. We introduce SurgFUTR, implementing this through a teacher-student architecture. Video clips are compressed into state representations via Sinkhorn-Knopp clustering; the teacher network learns from both current and future clips, while the student network predicts future states from current videos alone, guided by our Action Dynamics (ActDyn) module. We establish SFPBench with five prediction tasks spanning short-term (triplets, events) and long-term (remaining surgery duration, phase and step transitions) horizons. Experiments across four datasets and three procedures show consistent improvements. Cross-procedure transfer validates generalizability.
- Abstract(参考訳): 手術ビデオのリアルタイムAI分析によって引き起こされる外科的将来の予測は、手術室の安全性と効率性に不可欠である。
来るべきイベント、そのタイミング、リスクを誘発するリソース割り当ての改善、タイムリーな準備、合併症の早期警告(例えば出血、胆管損傷)に関する実行可能な洞察を提供する。
このようなニーズにもかかわらず、現在の外科的AI研究は、将来の出来事を予測するのではなく、何が起こっているのかを理解することに焦点を当てている。
既存の方法は、単独で特定のタスクを目標としており、短期(アクション・トリプレット、イベント)と長期(手術期間、フェーズ・トランジション)の両方にまたがる統一的なアプローチが欠如している。
これらの方法は粗粒度の監督に依存し、細粒度の手術作用三重項やステップは未探索のままである。
さらに、将来の特徴予測のみに基づく手法は、異なる外科的コンテキストや手順をまたいだ一般化に苦慮する。
これらの限界に対処するため、外科的将来の予測を状態変化学習として再考する。
生の観測を予測するのではなく,現状と将来の間の状態遷移を分類する。
本稿ではSurgFUTRを紹介する。
Sinkhorn-Knoppクラスタリングを通じてビデオクリップを状態表現に圧縮し、教師ネットワークは現在のクリップと将来のクリップの両方から学習し、学生ネットワークは我々のアクションダイナミクス(ActDyn)モジュールによってガイドされた現在のビデオのみから将来の状態を予測する。
SFPBenchは短期(トリップレット,イベント)と長期(手術期間,フェーズ,ステップ遷移)の地平線にまたがる5つの予測タスクを持つ。
4つのデータセットと3つのプロシージャによる実験は、一貫した改善を示している。
クロスプロデューサ転送は一般化性を検証する。
関連論文リスト
- Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-28T15:13:34Z) - SWAG: Long-term Surgical Workflow Prediction with Generative-based Anticipation [43.95663763660549]
位相認識と予測を組み合わせたSWAG(Surgical Precipative Generation)を提案する。
本稿では,単一パス(SP)と自己回帰(AR)の2つの異なる復号法について検討する。
位相予測の精度を高めるために,クラス遷移確率を用いた新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:29:57Z) - Adaptive Graph Learning from Spatial Information for Surgical Workflow Anticipation [9.329654505950199]
本稿では,新しい空間表現に基づく外科的ワークフロー予測のための適応型グラフ学習フレームワークを提案する。
我々は、異なる時間軸の学習目標のバランスを保ち、制約のない予測を可能にするマルチ水平目標を開発する。
論文 参考訳(メタデータ) (2024-12-09T12:53:08Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Multiscale Video Pretraining for Long-Term Activity Forecasting [67.06864386274736]
マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
論文 参考訳(メタデータ) (2023-07-24T14:55:15Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Behavioral Intention Prediction in Driving Scenes: A Survey [70.53285924851767]
行動意図予測(BIP)は、人間の思考過程をシミュレートし、特定の行動の早期予測を満たす。
この作業は、利用可能なデータセット、重要な要因と課題、歩行者中心および車両中心のBIPアプローチ、BIP対応アプリケーションからのBIPの包括的なレビューを提供する。
論文 参考訳(メタデータ) (2022-11-01T11:07:37Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - SUrgical PRediction GAN for Events Anticipation [38.65189355224683]
我々は,過去の腹腔鏡下ビデオフレーム上で,将来の手術段階の軌跡をサンプリングする新しいGAN製剤を用いた。
腹腔鏡下胆嚢摘出ビデオの進行を推定・予測する効果を実証した。
これらの予測軌道の可能性を評価するために外科医を調査した。
論文 参考訳(メタデータ) (2021-05-10T19:56:45Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。