論文の概要: Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition
- arxiv url: http://arxiv.org/abs/2403.19786v2
- Date: Wed, 21 Aug 2024 19:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:25:36.553472
- Title: Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition
- Title(参考訳): ゼロショットプロンプトによるジェスチャー認識のためのビデオエンコーダ
- Authors: Mingxing Rao, Yinhong Qin, Soheil Kolouri, Jie Ying Wu, Daniel Moyer,
- Abstract要約: 手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を開発した。
これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。
実験の結果,プロンプトベースのビデオエンコーダは,外科的ジェスチャー認識タスクにおいて,標準的なエンコーダよりも優れていた。
- 参考スコア(独自算出の注目度): 9.426097444566704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: In order to produce a surgical gesture recognition system that can support a wide variety of procedures, either a very large annotated dataset must be acquired, or fitted models must generalize to new labels (so called "zero-shot" capability). In this paper we investigate the feasibility of latter option. Methods: Leveraging the Bridge-Prompt framework, we prompt-tune a pre-trained vision-text model (CLIP) for gesture recognition in surgical videos. This can utilize extensive outside video data such as text, but also make use of label meta-data and weakly supervised contrastive losses. Results: Our experiments show that prompt-based video encoder outperforms standard encoders in surgical gesture recognition tasks. Notably, it displays strong performance in zero-shot scenarios, where gestures/tasks that were not provided during the encoder training phase are included in the prediction phase. Additionally, we measure the benefit of inclusion text descriptions in the feature extractor training schema. Conclusion Bridge-Prompt and similar pre-trained+prompt-tuned video encoder models present significant visual representation for surgical robotics, especially in gesture recognition tasks. Given the diverse range of surgical tasks (gestures), the ability of these models to zero-shot transfer without the need for any task (gesture) specific retraining makes them invaluable.
- Abstract(参考訳): 目的:多種多様な手順を支援できる外科的ジェスチャー認識システムを作成するためには、非常に大きな注釈付きデータセットを取得するか、新しいラベルに適合したモデルを一般化する必要がある(いわゆる「ゼロショット」能力)。
本稿では,後者の選択肢の実現可能性について検討する。
方法:Bridge-Promptフレームワークを応用し,手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を即時チューニングする。
これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。
結果: プロンプトベースビデオエンコーダは, 外科的ジェスチャー認識タスクにおいて, 標準的なエンコーダよりも優れていた。
特に、ゼロショットのシナリオでは、エンコーダのトレーニングフェーズで提供されなかったジェスチャー/タスクが予測フェーズに含まれる。
さらに,特徴抽出学習スキーマにテキスト記述を含めることの利点を計測する。
Conclusion Bridge-Promptと類似のトレーニング済み+promptチューニングビデオエンコーダモデルは、特にジェスチャー認識タスクにおいて、外科ロボティクスにおいて重要な視覚的表現を示す。
多様な外科的タスク(妊娠)を考慮に入れれば、これらのモデルが特定の作業(妊娠)の訓練を必要とせずにゼロショット転送を行う能力は、これらのモデルに有益である。
関連論文リスト
- Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。