論文の概要: Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures
- arxiv url: http://arxiv.org/abs/2307.15220v1
- Date: Thu, 27 Jul 2023 22:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:11:55.095108
- Title: Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures
- Title(参考訳): 何百もの手術ビデオ講義を視聴したマルチモーダル表現の学習
- Authors: Kun Yuan, Vinkle Srivastav, Tong Yu, Joel Lavanchy, Pietro Mascagni,
Nassir Navab, Nicolas Padoy
- Abstract要約: 本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
- 参考スコア(独自算出の注目度): 47.16381288828584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in surgical computer vision applications have been driven
by fully-supervised methods, primarily using only visual data. These methods
rely on manually annotated surgical videos to predict a fixed set of object
categories, limiting their generalizability to unseen surgical procedures and
downstream tasks. In this work, we put forward the idea that the surgical video
lectures available through open surgical e-learning platforms can provide
effective supervisory signals for multi-modal representation learning without
relying on manual annotations. We address the surgery-specific linguistic
challenges present in surgical video lectures by employing multiple
complementary automatic speech recognition systems to generate text
transcriptions. We then present a novel method, SurgVLP - Surgical Vision
Language Pre-training, for multi-modal representation learning. SurgVLP
constructs a new contrastive learning objective to align video clip embeddings
with the corresponding multiple text embeddings by bringing them together
within a joint latent space. To effectively show the representation capability
of the learned joint latent space, we introduce several vision-and-language
tasks for surgery, such as text-based video retrieval, temporal activity
grounding, and video captioning, as benchmarks for evaluation. We further
demonstrate that without using any labeled ground truth, our approach can be
employed for traditional vision-only surgical downstream tasks, such as
surgical tool, phase, and triplet recognition. The code will be made available
at https://github.com/CAMMA-public/SurgVLP
- Abstract(参考訳): 外科的コンピュータビジョン応用の最近の進歩は、主に視覚データのみを使用して、完全に監督された方法によって進められている。
これらの手法は、手動で注釈付けされた外科的ビデオを使って、固定された対象のカテゴリーを予測する。
本研究では,e-learningプラットフォームをオープンにすることで,手作業によるアノテーションを使わずに,マルチモーダル表現学習に効果的な監督信号を提供できる,という考え方を提示する。
本稿では,複数の補完的自動音声認識システムを用いてテキストの書き起こしを生成することで,外科的映像講義における手術特有の言語課題に対処する。
次に、多モーダル表現学習のための新しい方法、SurgVLP - Surgery Vision Language Pre-trainingを提案する。
SurgVLPは、ビデオクリップの埋め込みと対応する複数のテキストの埋め込みとを一致させるための、新しいコントラスト学習目標を構築する。
学習したジョイント潜在空間の表現能力を効果的に示すために,テキストベースのビデオ検索,時間的活動グラウンド,ビデオキャプションなど,手術のための視覚・言語タスクを評価ベンチマークとして導入した。
さらに,ラベル付き基底真理を用いなければ,手術器具,位相認識,三重項認識などの従来の視覚のみの手術下下流課題に応用できることを示した。
コードはhttps://github.com/CAMMA-public/SurgVLPで公開される。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。
LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。
外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文 参考訳(メタデータ) (2024-10-13T07:12:35Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition [51.222684687924215]
HecVLは、一般的な手術モデルを構築するための新しい階層型ビデオ言語事前学習手法である。
本稿では,3つのビデオテキスト階層に対する個別の埋め込み空間を学習する,より詳細なコントラスト学習フレームワークを提案する。
異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。
論文 参考訳(メタデータ) (2024-05-16T13:14:43Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。