論文の概要: CurConMix+: A Unified Spatio-Temporal Framework for Hierarchical Surgical Workflow Understanding
- arxiv url: http://arxiv.org/abs/2601.12312v1
- Date: Sun, 18 Jan 2026 08:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.568473
- Title: CurConMix+: A Unified Spatio-Temporal Framework for Hierarchical Surgical Workflow Understanding
- Title(参考訳): CurConMix+:階層的手術ワークフロー理解のための統合時空間フレームワーク
- Authors: Yongjun Jeon, Jongmin Shin, Kanggil Park, Seonmin Park, Soyoung Lim, Jung Yong Kim, Jinsoo Rhu, Jongman Kim, Gyu-Seong Choi, Namkee Oh, Kyu-Hwan Jung,
- Abstract要約: 手術行動三重項認識は、楽器、行動、解剖学的標的間の相互作用をモデル化することによって、詳細な外科的行動を理解することを目的としている。
ワークフロー分析とスキルアセスメントにおいて臨床的に重要であるにもかかわらず、進行は重度のクラス不均衡、微妙な視覚的変化、三重項成分間の相互依存によって妨げられている。
本研究では,これらの課題に対処するための空間表現フレームワークであるCurConMixを構築した。
- 参考スコア(独自算出の注目度): 1.0692208281858493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical action triplet recognition aims to understand fine-grained surgical behaviors by modeling the interactions among instruments, actions, and anatomical targets. Despite its clinical importance for workflow analysis and skill assessment, progress has been hindered by severe class imbalance, subtle visual variations, and the semantic interdependence among triplet components. Existing approaches often address only a subset of these challenges rather than tackling them jointly, which limits their ability to form a holistic understanding. This study builds upon CurConMix, a spatial representation framework. At its core, a curriculum-guided contrastive learning strategy learns discriminative and progressively correlated features, further enhanced by structured hard-pair sampling and feature-level mixup. Its temporal extension, CurConMix+, integrates a Multi-Resolution Temporal Transformer (MRTT) that achieves robust, context-aware understanding by adaptively fusing multi-scale temporal features and dynamically balancing spatio-temporal cues. Furthermore, we introduce LLS48, a new, hierarchically annotated benchmark for complex laparoscopic left lateral sectionectomy, providing step-, task-, and action-level annotations. Extensive experiments on CholecT45 and LLS48 demonstrate that CurConMix+ not only outperforms state-of-the-art approaches in triplet recognition, but also exhibits strong cross-level generalization, as its fine-grained features effectively transfer to higher-level phase and step recognition tasks. Together, the framework and dataset provide a unified foundation for hierarchy-aware, reproducible, and interpretable surgical workflow understanding. The code and dataset will be publicly released on GitHub to facilitate reproducibility and further research.
- Abstract(参考訳): 手術行動三重項認識は、楽器、行動、解剖学的標的間の相互作用をモデル化することによって、きめ細かい外科的行動を理解することを目的としている。
ワークフロー分析とスキルアセスメントにおいて臨床的に重要であるにもかかわらず、進行は重度のクラス不均衡、微妙な視覚的変化、三重項成分間の意味的相互依存性によって妨げられている。
既存のアプローチは、それらに共同で取り組むのではなく、これらの課題のサブセットにのみ対処することが多い。
この研究は空間表現フレームワークであるCurConMixをベースにしている。
カリキュラム指導型コントラスト学習戦略の中核は差別的かつ漸進的に相関した特徴を学習し、構造化されたハードペアサンプリングと特徴レベルの混合によってさらに強化される。
時間的拡張であるCurConMix+は、マルチスケールの時間的特徴を適応的に融合させ、時空間キューを動的にバランスさせることにより、堅牢でコンテキストに応じた理解を実現する、MRTT(Multi-Resolution Temporal Transformer)を統合している。
さらに、複雑な腹腔鏡下左外側切除術のための新しい階層的注釈付きベンチマークLS48を導入し、ステップレベル、タスクレベル、アクションレベルのアノテーションを提供する。
CholecT45 と LLS48 の広範な実験により、CurConMix+ は三重項認識における最先端のアプローチよりも優れているだけでなく、その微細な特徴が高次位相やステップ認識タスクに効果的に移行していることが示されている。
フレームワークとデータセットは、階層認識、再現可能、解釈可能な外科的ワークフロー理解のための統一された基盤を提供する。
コードとデータセットはGitHubで公開され、再現性とさらなる研究を容易にする。
関連論文リスト
- Surgical Video Understanding with Label Interpolation [3.880707330499936]
ロボット補助手術 (RAS) は, 患者の回復を促進するとともに, 外科医の負担を軽減し, 近代的な手術において重要なパラダイムとなっている。
これまでの研究は主にシングルタスクのアプローチに焦点が当てられていたが、実際の手術シーンには複雑な時間的ダイナミクスと多様な楽器の相互作用が含まれる。
本稿では,光フローベースセグメンテーションラベルとマルチタスク学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T08:49:07Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - CmFNet: Cross-modal Fusion Network for Weakly-supervised Segmentation of Medical Images [15.499686354040774]
そこで我々は,CmFNetを提案する。CmFNetは3次元弱教師付き医用画像分割手法である。
CmFNetは、モダリティ固有の特徴学習ネットワーク、クロスモーダル特徴学習ネットワーク、ハイブリッド教師あり学習戦略の3つの主要コンポーネントで構成されている。
当社のアプローチは、オーバーフィッティングを効果的に軽減し、堅牢なセグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2025-06-22T14:02:27Z) - SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.584722724845182]
手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文 参考訳(メタデータ) (2025-03-13T11:23:13Z) - Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - Robust Semi-supervised Multimodal Medical Image Segmentation via Cross Modality Collaboration [21.97457095780378]
本稿では,ラベル付きデータの不足やモダリティの不一致に頑健な,新しい半教師付きマルチモーダルセグメンテーションフレームワークを提案する。
本フレームワークでは,各モダリティに固有の,モダリティに依存しない知識を蒸留する,新たなモダリティ協調戦略を採用している。
また、対照的な一貫した学習を統合して解剖学的構造を規制し、ラベルのないデータに対する解剖学的予測アライメントを容易にする。
論文 参考訳(メタデータ) (2024-08-14T07:34:12Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。