論文の概要: Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2305.11692v1
- Date: Fri, 19 May 2023 14:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:07:20.547041
- Title: Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery
- Title(参考訳): 手術用VQLA:ロボット手術における視覚的質問応答のための視線埋め込み型トランスフォーマー
- Authors: Long Bai, Mobarakol Islam, Lalithkumar Seenivasan, Hongliang Ren
- Abstract要約: 本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
- 参考スコア(独自算出の注目度): 18.248882845789353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the availability of computer-aided simulators and recorded videos of
surgical procedures, junior residents still heavily rely on experts to answer
their queries. However, expert surgeons are often overloaded with clinical and
academic workloads and limit their time in answering. For this purpose, we
develop a surgical question-answering system to facilitate robot-assisted
surgical scene and activity understanding from recorded videos. Most of the
existing VQA methods require an object detector and regions based feature
extractor to extract visual features and fuse them with the embedded text of
the question for answer generation. However, (1) surgical object detection
model is scarce due to smaller datasets and lack of bounding box annotation;
(2) current fusion strategy of heterogeneous modalities like text and image is
naive; (3) the localized answering is missing, which is crucial in complex
surgical scenarios. In this paper, we propose Visual Question
Localized-Answering in Robotic Surgery (Surgical-VQLA) to localize the specific
surgical area during the answer prediction. To deal with the fusion of the
heterogeneous modalities, we design gated vision-language embedding (GVLE) to
build input patches for the Language Vision Transformer (LViT) to predict the
answer. To get localization, we add the detection head in parallel with the
prediction head of the LViT. We also integrate GIoU loss to boost localization
performance by preserving the accuracy of the question-answering model. We
annotate two datasets of VQLA by utilizing publicly available surgical videos
from MICCAI challenges EndoVis-17 and 18. Our validation results suggest that
Surgical-VQLA can better understand the surgical scene and localize the
specific area related to the question-answering. GVLE presents an efficient
language-vision embedding technique by showing superior performance over the
existing benchmarks.
- Abstract(参考訳): コンピュータ支援シミュレーターが利用可能であり、外科手術のビデオが録画されているにもかかわらず、ジュニア住民はまだ専門家に頼って質問に答えている。
しかし、専門家の外科医は、しばしば臨床や学術的な作業が過負荷になり、答えの時間が制限される。
そこで,本研究では,ロボット支援による手術シーンと映像からの活動理解を容易にする手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
しかし,(1)データセットの縮小やバウンディングボックスアノテーションの欠如,(2)テキストや画像などの不均一なモダリティの現在の融合戦略はナイーブであり,(3)局所的な応答が欠如しており,複雑な手術シナリオにおいて極めて重要である。
本稿では,ロボット手術における視覚的質問応答(Visual Question Localized-Answering in Robotic Surgery (Surgical-VQLA))を提案する。
不均一なモダリティの融合に対処するため,我々は,Language Vision Transformer (LViT) の入力パッチを構築するためにゲート型視覚言語埋め込み (GVLE) を設計した。
ローカライゼーションを実現するために,LViTの予測ヘッドと並列に検出ヘッドを追加する。
また、GIoU損失を統合して、質問応答モデルの精度を保ち、ローカライズ性能を向上させる。
我々は,miccaiの手術ビデオを利用してvqlaの2つのデータセットをアノテートし,endovis-17と18に挑戦する。
以上の結果から,外科的VQLAは外科的シーンをよりよく理解し,質問応答に関連する特定の領域を局所化できる可能性が示唆された。
GVLEは、既存のベンチマークよりも優れた性能を示すことで、効率的な言語ビジョンの埋め込み技術を示す。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery [12.21083362663014]
医用視覚質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋める。
特に、外科的VQAは、正確な診断、効果的な教育、臨床介入を補助し、外科的データの解釈を強化することができる。
本稿では,外科的画像に関する特定のクエリに対して,精密かつコンテキスト認識の応答を行うために,外科的視覚的質問応答(VQLA)を提案する。
論文 参考訳(メタデータ) (2024-08-09T09:23:07Z) - PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery [16.341966752582096]
本稿では, 内鼻下垂体手術における視覚質問応答(VQA)のためのデータセットであるPitVQAと, 手術用VQAのための新しい画像基底テキスト埋め込みによるGPT2の適応であるPitVQA-Netを紹介する。
PitVQAは25のプロシージャビデオと、フェーズとステップ認識、コンテキスト理解、ツール検出とローカライゼーション、ツールとタスクの相互作用といった重要な外科的側面にまたがる質問対の豊富なコレクションで構成されている。
PitVQA-Netは、画像とテキストの特徴を共有埋め込み空間とGPT2に投影する新しい画像基底テキスト埋め込みで構成されている。
論文 参考訳(メタデータ) (2024-05-22T19:30:24Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Advancing Surgical VQA with Scene Graph Knowledge [45.05847978115387]
我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
論文 参考訳(メタデータ) (2023-12-15T22:50:12Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Surgical-VQA: Visual Question Answering in Surgical Scenes using
Transformer [15.490603884631764]
専門医は、しばしば臨床および学術的な作業量で過負荷を受ける。
第2の意見として外科的VQAシステムを持つことは、バックアップとして機能し、医療専門家の負担を軽減することができる。
本研究は,手術シーンに基づく外科手術のアンケートに答える手術-VQAタスクを設計する。
論文 参考訳(メタデータ) (2022-06-22T13:21:31Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。