論文の概要: Surgical-VQA: Visual Question Answering in Surgical Scenes using
Transformer
- arxiv url: http://arxiv.org/abs/2206.11053v1
- Date: Wed, 22 Jun 2022 13:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:12:29.591579
- Title: Surgical-VQA: Visual Question Answering in Surgical Scenes using
Transformer
- Title(参考訳): 変圧器を用いた手術場面における視覚的質問応答
- Authors: Lalithkumar Seenivasan, Mobarakol Islam, Adithya Krishna and Hongliang
Ren
- Abstract要約: 専門医は、しばしば臨床および学術的な作業量で過負荷を受ける。
第2の意見として外科的VQAシステムを持つことは、バックアップとして機能し、医療専門家の負担を軽減することができる。
本研究は,手術シーンに基づく外科手術のアンケートに答える手術-VQAタスクを設計する。
- 参考スコア(独自算出の注目度): 15.490603884631764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) in surgery is largely unexplored. Expert
surgeons are scarce and are often overloaded with clinical and academic
workloads. This overload often limits their time answering questionnaires from
patients, medical students or junior residents related to surgical procedures.
At times, students and junior residents also refrain from asking too many
questions during classes to reduce disruption. While computer-aided simulators
and recording of past surgical procedures have been made available for them to
observe and improve their skills, they still hugely rely on medical experts to
answer their questions. Having a Surgical-VQA system as a reliable 'second
opinion' could act as a backup and ease the load on the medical experts in
answering these questions. The lack of annotated medical data and the presence
of domain-specific terms has limited the exploration of VQA for surgical
procedures. In this work, we design a Surgical-VQA task that answers
questionnaires on surgical procedures based on the surgical scene. Extending
the MICCAI endoscopic vision challenge 2018 dataset and workflow recognition
dataset further, we introduce two Surgical-VQA datasets with classification and
sentence-based answers. To perform Surgical-VQA, we employ vision-text
transformers models. We further introduce a residual MLP-based VisualBert
encoder model that enforces interaction between visual and text tokens,
improving performance in classification-based answering. Furthermore, we study
the influence of the number of input image patches and temporal visual features
on the model performance in both classification and sentence-based answering.
- Abstract(参考訳): 手術における視覚的質問応答 (VQA) はほとんど探索されていない。
専門家の外科医は乏しく、しばしば臨床および学術的なワークロードで過負荷される。
この過負荷は、外科手術に関連する患者、医学生、または中学生からのアンケートに答える時間を制限することが多い。
学生や中学生も授業中に多くの質問をすることを避けて、混乱を減らすこともある。
コンピュータ支援シミュレーターと過去の手術手順の記録は、彼らのスキルを観察し改善するために利用できるが、それでも医療専門家の質問に答えることに大きく依存している。
信頼できる「第2の意見」として外科的VQAシステムを持つことは、バックアップとして機能し、これらの質問に答える医療専門家の負担を軽減することができる。
注釈付き医療データの欠如とドメイン固有の用語の存在は、外科手術のためのVQAの探索を制限している。
本研究は,手術シーンに基づく外科手術に対する質問票を回答する手術VQAタスクを設計する。
miccai endoscopic vision challenge 2018データセットとworkflow recognitionデータセットを拡張し、分類と文ベースの回答を含む2つの手術用vqaデータセットを紹介します。
手術用VQAを実現するために,視覚テキストトランスフォーマモデルを用いる。
さらに、視覚トークンとテキストトークンの相互作用を強制し、分類ベースの応答の性能を向上させるMLPベースの残差VisualBertエンコーダモデルを導入する。
さらに,入力画像のパッチ数と時間的視覚的特徴が,分類および文ベース回答におけるモデル性能に与える影響について検討した。
関連論文リスト
- Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry [14.479606737135045]
自己完結型問合せによる外科的コンテキスト理解を改善するためのメモリ拡張フレームワークであるSCANを提案する。
SCANは、コンテキスト拡張のための2種類のメモリを生成する。DM(Direct Memory)は、最終回答に複数の候補(またはヒント)を提供する。
3つの公開可能な手術用VQAデータセットの実験では、SCANが最先端のパフォーマンスを実現し、さまざまな手術シナリオにおける精度と堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2024-11-17T02:23:45Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery [12.21083362663014]
医用視覚質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋める。
特に、外科的VQAは、正確な診断、効果的な教育、臨床介入を補助し、外科的データの解釈を強化することができる。
本稿では,外科的画像に関する特定のクエリに対して,精密かつコンテキスト認識の応答を行うために,外科的視覚的質問応答(VQLA)を提案する。
論文 参考訳(メタデータ) (2024-08-09T09:23:07Z) - VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文 参考訳(メタデータ) (2024-05-14T02:05:36Z) - Advancing Surgical VQA with Scene Graph Knowledge [45.05847978115387]
我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
論文 参考訳(メタデータ) (2023-12-15T22:50:12Z) - Deep Multimodal Fusion for Surgical Feedback Classification [70.53297887843802]
外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
論文 参考訳(メタデータ) (2023-12-06T01:59:47Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。