論文の概要: TiS-TSL: Image-Label Supervised Surgical Video Stereo Matching via Time-Switchable Teacher-Student Learning
- arxiv url: http://arxiv.org/abs/2511.06817v3
- Date: Thu, 13 Nov 2025 01:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 14:36:36.951342
- Title: TiS-TSL: Image-Label Supervised Surgical Video Stereo Matching via Time-Switchable Teacher-Student Learning
- Title(参考訳): TiS-TSL: 時間変更可能な教師学習による画像ラベルによるステレオマッチング
- Authors: Rui Wang, Ying Zhou, Hao Wang, Wenwei Zhang, Qiang Li, Zhiwei Wang,
- Abstract要約: TiS-TSLは、最小限の監督下でビデオステレオマッチングのためのタイムウィッチ可能な教師学生学習フレームワークである。
統合モデルは、画像予測(IP)、前方ビデオ予測(FVP)、後方ビデオ予測(BVP)の3つの異なるモードで動作する。
- 参考スコア(独自算出の注目度): 43.682537904776616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching in minimally invasive surgery (MIS) is essential for next-generation navigation and augmented reality. Yet, dense disparity supervision is nearly impossible due to anatomical constraints, typically limiting annotations to only a few image-level labels acquired before the endoscope enters deep body cavities. Teacher-Student Learning (TSL) offers a promising solution by leveraging a teacher trained on sparse labels to generate pseudo labels and associated confidence maps from abundant unlabeled surgical videos. However, existing TSL methods are confined to image-level supervision, providing only spatial confidence and lacking temporal consistency estimation. This absence of spatio-temporal reliability results in unstable disparity predictions and severe flickering artifacts across video frames. To overcome these challenges, we propose TiS-TSL, a novel time-switchable teacher-student learning framework for video stereo matching under minimal supervision. At its core is a unified model that operates in three distinct modes: Image-Prediction (IP), Forward Video-Prediction (FVP), and Backward Video-Prediction (BVP), enabling flexible temporal modeling within a single architecture. Enabled by this unified model, TiS-TSL adopts a two-stage learning strategy. The Image-to-Video (I2V) stage transfers sparse image-level knowledge to initialize temporal modeling. The subsequent Video-to-Video (V2V) stage refines temporal disparity predictions by comparing forward and backward predictions to calculate bidirectional spatio-temporal consistency. This consistency identifies unreliable regions across frames, filters noisy video-level pseudo labels, and enforces temporal coherence. Experimental results on two public datasets demonstrate that TiS-TSL exceeds other image-based state-of-the-arts by improving TEPE and EPE by at least 2.11% and 4.54%, respectively.
- Abstract(参考訳): 低侵襲手術(MIS)におけるステレオマッチングは,次世代ナビゲーションと拡張現実に不可欠である。
しかし、解剖学的制約のため、密集した格差の監視はほとんど不可能であり、通常は、内視鏡が深い体腔に入る前に取得された少数の画像レベルラベルにアノテーションを限定する。
Teacher-Student Learning (TSL)は、スパースラベルで訓練された教師を利用して、豊富な未ラベルの手術ビデオから擬似ラベルと関連する信頼マップを生成する、有望なソリューションを提供する。
しかし、既存のTSL法は画像レベルの監視に限られており、空間的信頼のみを提供し、時間的一貫性を欠いている。
この時空間的信頼性の欠如は、不安定な不均一性予測と、ビデオフレーム全体にわたる重度フリッカリングアーティファクトをもたらす。
これらの課題を克服するために、最小限の監督下でビデオステレオマッチングのためのタイムスウィッチ可能な教師学生学習フレームワークTiS-TSLを提案する。
中心となるのは、イメージ・プレディション(IP)、フォワード・ビデオ・プレディション(FVP)、バックワード・ビデオ・プレディクション(BVP)の3つの異なるモードで動作する統一モデルである。
この統一モデルによって実現されたTiS-TSLは、2段階の学習戦略を採用している。
I2V(Image-to-Video)ステージは、低レベルの画像レベルの知識を伝達し、時間的モデリングを初期化する。
その後のV2V(Video-to-Video)ステージでは、前方と後方の予測を比較して時間差の予測を洗練し、双方向の時空間一貫性を計算する。
この一貫性はフレーム間の信頼できない領域を特定し、ノイズの多いビデオレベルの擬似ラベルをフィルタリングし、時間的一貫性を強制する。
2つの公開データセットの実験結果は、TiS-TSLがTEPEとEPEをそれぞれ少なくとも2.11%、4.54%改善することで、他の画像ベースの最先端技術を上回ることを示した。
関連論文リスト
- Spatial-Temporal Pre-Training for Embryo Viability Prediction Using Time-Lapse Videos [20.617772805817154]
自己教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を活用して予測を改善する。
既存のビデオのSSLメソッドは、2つの課題があるため、胚発生ビデオには直接適用されない。
これらの課題に対処するために,時空間事前学習(STPT)を提案する。
STPTは、ビデオ間のフレーム単位のアライメントを回避し、空間ステージは、各ビデオ内のアライメントと時間的に一貫したアライメントから学習する。
時間的段階は,ビデオ埋め込み間の関係をモデル化し,時間的変動を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-20T18:08:41Z) - Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning [1.5233179662962222]
pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。
従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統合ネットワークモデルを利用する。
CNN と Transformer を組み合わせた新しいフレームワークである Dual-Student and Teacher Combining CNN (DSTCT) を導入する。
論文 参考訳(メタデータ) (2024-09-11T00:57:31Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。