論文の概要: Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures
- arxiv url: http://arxiv.org/abs/2307.15220v2
- Date: Sat, 13 Jan 2024 13:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:12:45.565845
- Title: Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures
- Title(参考訳): 何百もの手術ビデオ講義を視聴したマルチモーダル表現の学習
- Authors: Kun Yuan, Vinkle Srivastav, Tong Yu, Joel L. Lavanchy, Pietro
Mascagni, Nassir Navab, Nicolas Padoy
- Abstract要約: 本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
- 参考スコア(独自算出の注目度): 54.376834698110684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in surgical computer vision applications have been driven
by fully-supervised methods, primarily using only visual data. These methods
rely on manually annotated surgical videos to predict a fixed set of object
categories, limiting their generalizability to unseen surgical procedures and
downstream tasks. In this work, we put forward the idea that the surgical video
lectures available through open surgical e-learning platforms can provide
effective supervisory signals for multi-modal representation learning without
relying on manual annotations. We address the surgery-specific linguistic
challenges present in surgical video lectures by employing multiple
complementary automatic speech recognition systems to generate text
transcriptions. We then present a novel method, SurgVLP - Surgical Vision
Language Pre-training, for multi-modal representation learning. SurgVLP
constructs a new contrastive learning objective to align video clip embeddings
with the corresponding multiple text embeddings by bringing them together
within a joint latent space. To effectively show the representation capability
of the learned joint latent space, we introduce several vision-and-language
tasks for surgery, such as text-based video retrieval, temporal activity
grounding, and video captioning, as benchmarks for evaluation. We further
demonstrate that without using any labeled ground truth, our approach can be
employed for traditional vision-only surgical downstream tasks, such as
surgical tool, phase, and triplet recognition. The code will be made available
at https://github.com/CAMMA-public/SurgVLP
- Abstract(参考訳): 外科的コンピュータビジョン応用の最近の進歩は、主に視覚データのみを使用して、完全に監督された方法によって進められている。
これらの手法は、手動で注釈付けされた外科的ビデオを使って、固定された対象のカテゴリーを予測する。
本研究では,e-learningプラットフォームをオープンにすることで,手作業によるアノテーションを使わずに,マルチモーダル表現学習に効果的な監督信号を提供できる,という考え方を提示する。
本稿では,複数の補完的自動音声認識システムを用いてテキストの書き起こしを生成することで,外科的映像講義における手術特有の言語課題に対処する。
次に、多モーダル表現学習のための新しい方法、SurgVLP - Surgery Vision Language Pre-trainingを提案する。
SurgVLPは、ビデオクリップの埋め込みと対応する複数のテキストの埋め込みとを一致させるための、新しいコントラスト学習目標を構築する。
学習したジョイント潜在空間の表現能力を効果的に示すために,テキストベースのビデオ検索,時間的活動グラウンド,ビデオキャプションなど,手術のための視覚・言語タスクを評価ベンチマークとして導入した。
さらに,ラベル付き基底真理を用いなければ,手術器具,位相認識,三重項認識などの従来の視覚のみの手術下下流課題に応用できることを示した。
コードはhttps://github.com/CAMMA-public/SurgVLPで公開される。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary
Action Recognition [91.25980503879222]
Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。
近年の先駆的な研究は、強力なCLIPをビデオデータに適用することを提案しており、オープン語彙アクション認識のための効率的で効果的なビデオ学習者を生み出している。
CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できますか?
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Deep Multimodal Fusion for Surgical Feedback Classification [70.53297887843802]
外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
論文 参考訳(メタデータ) (2023-12-06T01:59:47Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - Surgical Instruction Generation with Transformers [6.97857490403095]
本稿では,自己クリティカル強化学習を用いたトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像から指示を生成する。
各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。
論文 参考訳(メタデータ) (2021-07-14T19:54:50Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。