論文の概要: CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2602.06619v1
- Date: Fri, 06 Feb 2026 11:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.376464
- Title: CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling
- Title(参考訳): CauCLIP:Causality-Inspired Vision-Language Modelingによる手術ビデオ理解におけるSim-to-Real Gapのブリッジ
- Authors: Yuxin He, An Li, Cheng Xue,
- Abstract要約: 目的のドメインデータにアクセスすることなく,外科的位相認識のためのドメイン不変表現を学習する因果性インスパイアされた視覚言語フレームワークを提案する。
提案手法は,意味的構造を保ちながらドメイン固有の属性を摂動させるための周波数ベースの拡張戦略と,非因果バイアスを緩和し,因果的外科的特徴を補強する因果的抑制損失を統合する。
- 参考スコア(独自算出の注目度): 15.329483562973536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition is a critical component for context-aware decision support in intelligent operating rooms, yet training robust models is hindered by limited annotated clinical videos and large domain gaps between synthetic and real surgical data. To address this, we propose CauCLIP, a causality-inspired vision-language framework that leverages CLIP to learn domain-invariant representations for surgical phase recognition without access to target domain data. Our approach integrates a frequency-based augmentation strategy to perturb domain-specific attributes while preserving semantic structures, and a causal suppression loss that mitigates non-causal biases and reinforces causal surgical features. These components are combined in a unified training framework that enables the model to focus on stable causal factors underlying surgical workflows. Experiments on the SurgVisDom hard adaptation benchmark demonstrate that our method substantially outperforms all competing approaches, highlighting the effectiveness of causality-guided vision-language models for domain-generalizable surgical video understanding.
- Abstract(参考訳): 外科的位相認識は、インテリジェントな手術室における文脈認識決定支援において重要な要素であるが、ロバストモデルのトレーニングは、限られた注釈付き臨床ビデオと、合成と実際の外科的データの間の大きな領域ギャップによって妨げられる。
CauCLIPはCLIPを利用して、対象のドメインデータにアクセスすることなく、外科的位相認識のためのドメイン不変表現を学習する。
提案手法は,意味的構造を保ちながらドメイン固有の属性を摂動させるための周波数ベースの拡張戦略と,非因果バイアスを緩和し,因果的外科的特徴を補強する因果的抑制損失を統合する。
これらのコンポーネントは統合トレーニングフレームワークに統合され、手術ワークフローの根底にある安定した因果関係に焦点を合わせることができる。
SurgVisDomハード・アダプティブ・ベンチマークの実験により,本手法はすべての競合するアプローチを著しく上回り,因果性誘導型視覚言語モデルの有効性を強調した。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks [1.0889037375410424]
ヒトの行動認識は、患者の行動監視、転倒検出、手術ロボットの監督、手続き的スキルアセスメントなど、医療や医療において重要な役割を担っている。
近年の視覚言語モデル、特にトランスフォーマーベースのCLIPモデルは、ビデオデータからアクション認識を一般化する有望な機能を提供する。
論文 参考訳(メタデータ) (2025-07-24T13:13:28Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.584722724845182]
手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文 参考訳(メタデータ) (2025-03-13T11:23:13Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Event Recognition in Laparoscopic Gynecology Videos with Hybrid
Transformers [4.371909393924804]
腹腔鏡下ビデオにおいて,関連するイベント認識に適したデータセットを提案する。
本データセットは,術中大きな課題と術後合併症に関連する重要な事象に対するアノテーションを含む。
腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,ハイブリッドトランスフォーマーアーキテクチャと,カスタマイズしたトレーニング推論フレームワークを併用して評価を行った。
論文 参考訳(メタデータ) (2023-12-01T13:57:29Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。