論文の概要: CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2307.05182v2
- Date: Sat, 22 Jul 2023 09:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:15:58.654600
- Title: CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery
- Title(参考訳): CAT-ViL:ロボット手術における視覚的質問応答のための共同注意型視覚言語埋め込み
- Authors: Long Bai, Mobarakol Islam, Hongliang Ren
- Abstract要約: 手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
- 参考スコア(独自算出の注目度): 20.509915509237818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical students and junior surgeons often rely on senior surgeons and
specialists to answer their questions when learning surgery. However, experts
are often busy with clinical and academic work, and have little time to give
guidance. Meanwhile, existing deep learning (DL)-based surgical Visual Question
Answering (VQA) systems can only provide simple answers without the location of
the answers. In addition, vision-language (ViL) embedding is still a less
explored research in these kinds of tasks. Therefore, a surgical Visual
Question Localized-Answering (VQLA) system would be helpful for medical
students and junior surgeons to learn and understand from recorded surgical
videos. We propose an end-to-end Transformer with the Co-Attention gaTed
Vision-Language (CAT-ViL) embedding for VQLA in surgical scenarios, which does
not require feature extraction through detection models. The CAT-ViL embedding
module is designed to fuse multimodal features from visual and textual sources.
The fused embedding will feed a standard Data-Efficient Image Transformer
(DeiT) module, before the parallel classifier and detector for joint
prediction. We conduct the experimental validation on public surgical videos
from MICCAI EndoVis Challenge 2017 and 2018. The experimental results highlight
the superior performance and robustness of our proposed model compared to the
state-of-the-art approaches. Ablation studies further prove the outstanding
performance of all the proposed components. The proposed method provides a
promising solution for surgical scene understanding, and opens up a primary
step in the Artificial Intelligence (AI)-based VQLA system for surgical
training. Our code is publicly available.
- Abstract(参考訳): 医学生やジュニア外科医は、手術を学ぶ際に、上級外科医や専門医に質問に答える。
しかし、専門家はしばしば臨床や学術的な研究に忙しく、指導する時間はほとんどない。
一方、既存のディープラーニング(DL)ベースの手術用視覚質問応答システム(VQA)では、答えの場所を指定せずに簡単な回答しか得られない。
加えて、視覚言語(ViL)の埋め込みは、この種のタスクでは研究されていない研究である。
したがって、VQLA(Visual Question Localized-Answering)システムは、医学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
本稿では,VQLA を外科的シナリオに組み込んだコAttention gaTed Vision-Language (CAT-ViL) を用いたエンドツーエンド変換器を提案する。
CAT-ViL組み込みモジュールは、視覚的およびテキストソースからのマルチモーダル機能を融合するよう設計されている。
融合埋め込みは、結合予測のための並列分類器と検出器の前に、標準データ効率のよいイメージトランスフォーマー(deit)モジュールを供給する。
我々は,MICCAI EndoVis Challenge 2017と2018の公開手術ビデオに対する実験的検証を行った。
実験の結果,提案モデルの性能とロバスト性は,最先端のアプローチと比較して高い評価を得た。
アブレーション研究は、提案された全てのコンポーネントの優れた性能をさらに証明している。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
私たちのコードは公開されています。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery [12.21083362663014]
医用視覚質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋める。
特に、外科的VQAは、正確な診断、効果的な教育、臨床介入を補助し、外科的データの解釈を強化することができる。
本稿では,外科的画像に関する特定のクエリに対して,精密かつコンテキスト認識の応答を行うために,外科的視覚的質問応答(VQLA)を提案する。
論文 参考訳(メタデータ) (2024-08-09T09:23:07Z) - VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文 参考訳(メタデータ) (2024-05-14T02:05:36Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Surgical-VQA: Visual Question Answering in Surgical Scenes using
Transformer [15.490603884631764]
専門医は、しばしば臨床および学術的な作業量で過負荷を受ける。
第2の意見として外科的VQAシステムを持つことは、バックアップとして機能し、医療専門家の負担を軽減することができる。
本研究は,手術シーンに基づく外科手術のアンケートに答える手術-VQAタスクを設計する。
論文 参考訳(メタデータ) (2022-06-22T13:21:31Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。