論文の概要: SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.03325v1
- Date: Wed, 05 Nov 2025 09:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.397636
- Title: SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding
- Title(参考訳): SurgViVQA: 手術シーン理解のためのビデオ質問回答
- Authors: Mauro Orazio Drago, Luca Carlini, Pelinsu Celebi Balyemez, Dennis Pierantozzi, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque,
- Abstract要約: 外科領域におけるビデオ質問応答 (Video Question Answering, VideoQA) は, 時間的に整合した事象をAIモデルで推論することで, 術中理解を高めることを目的としている。
静的画像から動的手術シーンへの視覚的推論を拡張するモデルであるSurgViVQAを提案する。
Masked Video-Textを使ってビデオと質問機能を融合し、モーションやツール間のインタラクションなどの時間的手がかりをキャプチャする。
- 参考スコア(独自算出の注目度): 11.424693319143715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) in the surgical domain aims to enhance intraoperative understanding by enabling AI models to reason over temporally coherent events rather than isolated frames. Current approaches are limited to static image features, and available datasets often lack temporal annotations, ignoring the dynamics critical for accurate procedural interpretation. We propose SurgViVQA, a surgical VideoQA model that extends visual reasoning from static images to dynamic surgical scenes. It uses a Masked Video--Text Encoder to fuse video and question features, capturing temporal cues such as motion and tool--tissue interactions, which a fine-tuned large language model (LLM) then decodes into coherent answers. To evaluate its performance, we curated REAL-Colon-VQA, a colonoscopic video dataset that includes motion-related questions and diagnostic attributes, as well as out-of-template questions with rephrased or semantically altered formulations to assess model robustness. Experimental validation on REAL-Colon-VQA and the public EndoVis18-VQA dataset shows that SurgViVQA outperforms existing image-based VQA benchmark models, particularly in keyword accuracy, improving over PitVQA by +11\% on REAL-Colon-VQA and +9\% on EndoVis18-VQA. A perturbation study on the questions further confirms improved generalizability and robustness to variations in question phrasing. SurgViVQA and the REAL-Colon-VQA dataset provide a framework for temporally-aware understanding in surgical VideoQA, enabling AI models to interpret dynamic procedural contexts more effectively. Code and dataset available at https://github.com/madratak/SurgViVQA.
- Abstract(参考訳): 外科領域におけるビデオ質問回答 (Video Question Answering, VideoQA) は、AIモデルが独立したフレームではなく、時間的に一貫性のある事象を推論できるようにすることで、術中理解を高めることを目的としている。
現在のアプローチは静的なイメージ機能に限定されており、利用可能なデータセットには時間的アノテーションがなく、正確な手続き的解釈に不可欠なダイナミクスを無視していることが多い。
静的画像からダイナミックな手術シーンへの視覚的推論を拡張する手術用ビデオQAモデルであるSurgViVQAを提案する。
Masked Video-Text Encoderを使ってビデオと質問機能を融合し、モーションやツール-タスクインタラクションなどの時間的手がかりをキャプチャする。
その性能を評価するため,動作関連質問や診断属性を含む大腸内視鏡的ビデオデータセットであるREAL-Colon-VQA(REAL-Colon-VQA)を作成した。
REAL-Colon-VQAとパブリックなEndoVis18-VQAデータセットに対する実験的検証は、SurgViVQAが既存の画像ベースのVQAベンチマークモデル、特にキーワードの精度で、REAL-Colon-VQAで+11\%、EndoVis18-VQAで+9\%向上していることを示している。
質問に対する摂動研究は、質問文の変動に対する一般化性と頑健性の向上をさらに確認する。
SurgViVQAとREAL-Colon-VQAデータセットは、外科的ビデオQAにおける時間的理解のためのフレームワークを提供する。
コードとデータセットはhttps://github.com/madratak/SurgViVQA.comで入手できる。
関連論文リスト
- SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention [10.149538951173598]
鼻腔鏡下下下垂体手術のリアルタイム支援には,今後の外科的事象の予測が不可欠である。
ほとんどの視覚的質問応答(VQA)システムは、静的視覚言語アライメントを持つ独立したフレームを推論する。
先見的外科的推論のために設計された最初のVQAデータセットであるPitVQA-Anticipationを紹介する。
論文 参考訳(メタデータ) (2025-11-05T04:55:11Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Advancing Surgical VQA with Scene Graph Knowledge [45.05847978115387]
我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
論文 参考訳(メタデータ) (2023-12-15T22:50:12Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。