論文の概要: Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition
- arxiv url: http://arxiv.org/abs/2403.19786v1
- Date: Thu, 28 Mar 2024 19:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:23:49.387695
- Title: Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition
- Title(参考訳): ゼロショットプロンプトによるジェスチャー認識のためのビデオエンコーダ
- Authors: Mingxing Rao, Yinhong Qin, Soheil Kolouri, Jie Ying Wu, Daniel Moyer,
- Abstract要約: 手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を微調整する。
実験の結果,プロンプトベースのビデオエンコーダはジェスチャー認識タスクにおいて,標準的なエンコーダよりも優れていた。
- 参考スコア(独自算出の注目度): 9.426097444566704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Surgical video is an important data stream for gesture recognition. Thus, robust visual encoders for those data-streams is similarly important. Methods: Leveraging the Bridge-Prompt framework, we fine-tune a pre-trained vision-text model (CLIP) for gesture recognition in surgical videos. This can utilize extensive outside video data such as text, but also make use of label meta-data and weakly supervised contrastive losses. Results: Our experiments show that prompt-based video encoder outperforms standard encoders in surgical gesture recognition tasks. Notably, it displays strong performance in zero-shot scenarios, where gestures/tasks that were not provided during the encoder training phase are included in the prediction phase. Additionally, we measure the benefit of inclusion text descriptions in the feature extractor training schema. Conclusion: Bridge-Prompt and similar pre-trained+fine-tuned video encoder models present significant visual representation for surgical robotics, especially in gesture recognition tasks. Given the diverse range of surgical tasks (gestures), the ability of these models to zero-shot transfer without the need for any task (gesture) specific retraining makes them invaluable.
- Abstract(参考訳): 目的: ジェスチャー認識において, 手術映像は重要なデータストリームである。
したがって、これらのデータストリームに対する堅牢なビジュアルエンコーダも同様に重要である。
方法:Bridge-Promptフレームワークを利用して,手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を微調整する。
これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。
結果: プロンプトベースビデオエンコーダは, 外科的ジェスチャー認識タスクにおいて, 標準的なエンコーダよりも優れていた。
特に、ゼロショットのシナリオでは、エンコーダのトレーニングフェーズで提供されなかったジェスチャー/タスクが予測フェーズに含まれる。
さらに,特徴抽出学習スキーマにテキスト記述を含めることの利点を計測する。
結論: Bridge-Promptと類似のトレーニング済み+微調整ビデオエンコーダモデルは,特にジェスチャー認識タスクにおいて,外科的ロボティクスにおいて重要な視覚的表現を示す。
多様な外科的タスク(妊娠)を考慮に入れれば、これらのモデルが特定の作業(妊娠)の訓練を必要とせずにゼロショット転送を行う能力は、これらのモデルに有益である。
関連論文リスト
- Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures [54.376834698110684]
本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。