論文の概要: Advancing Surgical VQA with Scene Graph Knowledge
- arxiv url: http://arxiv.org/abs/2312.10251v2
- Date: Sat, 13 Jan 2024 13:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:13:04.083652
- Title: Advancing Surgical VQA with Scene Graph Knowledge
- Title(参考訳): シーングラフ知識による手術用VQAの改善
- Authors: Kun Yuan, Manasi Kattel, Joel L. Lavanchy, Nassir Navab, Vinkle
Srivastav, Nicolas Padoy
- Abstract要約: 我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
- 参考スコア(独自算出の注目度): 47.74467806074654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern operating room is becoming increasingly complex, requiring innovative
intra-operative support systems. While the focus of surgical data science has
largely been on video analysis, integrating surgical computer vision with
language capabilities is emerging as a necessity. Our work aims to advance
Visual Question Answering (VQA) in the surgical context with scene graph
knowledge, addressing two main challenges in the current surgical VQA systems:
removing question-condition bias in the surgical VQA dataset and incorporating
scene-aware reasoning in the surgical VQA model design. First, we propose a
Surgical Scene Graph-based dataset, SSG-QA, generated by employing segmentation
and detection models on publicly available datasets. We build surgical scene
graphs using spatial and action information of instruments and anatomies. These
graphs are fed into a question engine, generating diverse QA pairs. Our SSG-QA
dataset provides a more complex, diverse, geometrically grounded, unbiased, and
surgical action-oriented dataset compared to existing surgical VQA datasets. We
then propose SSG-QA-Net, a novel surgical VQA model incorporating a lightweight
Scene-embedded Interaction Module (SIM), which integrates geometric scene
knowledge in the VQA model design by employing cross-attention between the
textual and the scene features. Our comprehensive analysis of the SSG-QA
dataset shows that SSG-QA-Net outperforms existing methods across different
question types and complexities. We highlight that the primary limitation in
the current surgical VQA systems is the lack of scene knowledge to answer
complex queries. We present a novel surgical VQA dataset and model and show
that results can be significantly improved by incorporating geometric scene
features in the VQA model design. The source code and the dataset will be made
publicly available at: https://github.com/CAMMA-public/SSG-QA
- Abstract(参考訳): 現代の手術室はますます複雑化しており、革新的な手術内支援システムを必要としている。
外科的データサイエンスの焦点は主にビデオ解析に向けられているが、外科的コンピュータビジョンと言語能力の統合が求められている。
本研究の目的は,手術用VQAデータセットにおける質問条件バイアスの除去と,手術用VQAモデル設計におけるシーン認識推論の導入という,現在の手術用VQAシステムにおける2つの課題に対処することである。
まず,公開データセットにセグメンテーションと検出モデルを用いた手術シーングラフベースのデータセットSSG-QAを提案する。
楽器や解剖の空間的・行動的情報を用いて手術シーングラフを構築する。
これらのグラフは質問エンジンに入力され、多様なQAペアを生成する。
我々のSSG-QAデータセットは、既存の外科的VQAデータセットと比較して、より複雑で、多様で、幾何学的基盤があり、偏見がなく、外科的アクション指向のデータセットを提供する。
次にssg-qa-netを提案する。ssg-qa-netは、テキスト特徴とシーン特徴の相互接続を用いて、vqaモデル設計に幾何学的シーン知識を統合する軽量なシーン埋め込みインタラクションモジュール(sim)を組み込んだ、新しい手術用vqaモデルである。
SSG-QAデータセットの包括的分析により、SSG-QA-Netは、様々な質問タイプや複雑さで既存のメソッドよりも優れていることが示された。
現在の外科的vqaシステムにおける主要な制限は、複雑なクエリに答えるためのシーン知識の欠如である。
本稿では,新しい外科的VQAデータセットとモデルを提案し,VQAモデル設計に幾何学的シーン特徴を取り入れることで,その結果を著しく改善できることを示す。
ソースコードとデータセットは、https://github.com/CAMMA-public/SSG-QAで公開されます。
関連論文リスト
- PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery [16.341966752582096]
本稿では, 内鼻下垂体手術における視覚質問応答(VQA)のためのデータセットであるPitVQAと, 手術用VQAのための新しい画像基底テキスト埋め込みによるGPT2の適応であるPitVQA-Netを紹介する。
PitVQAは25のプロシージャビデオと、フェーズとステップ認識、コンテキスト理解、ツール検出とローカライゼーション、ツールとタスクの相互作用といった重要な外科的側面にまたがる質問対の豊富なコレクションで構成されている。
PitVQA-Netは、画像とテキストの特徴を共有埋め込み空間とGPT2に投影する新しい画像基底テキスト埋め込みで構成されている。
論文 参考訳(メタデータ) (2024-05-22T19:30:24Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Surgical-VQA: Visual Question Answering in Surgical Scenes using
Transformer [15.490603884631764]
専門医は、しばしば臨床および学術的な作業量で過負荷を受ける。
第2の意見として外科的VQAシステムを持つことは、バックアップとして機能し、医療専門家の負担を軽減することができる。
本研究は,手術シーンに基づく外科手術のアンケートに答える手術-VQAタスクを設計する。
論文 参考訳(メタデータ) (2022-06-22T13:21:31Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。