論文の概要: SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention
- arxiv url: http://arxiv.org/abs/2511.03178v1
- Date: Wed, 05 Nov 2025 04:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.326412
- Title: SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention
- Title(参考訳): SurgAnt-ViVQA:GRUによる時間的交叉による手術イベントの予測学習
- Authors: Shreyas C. Dhake, Jiayuan Huang, Runlong He, Danyal Z. Khan, Evangelos B. Mazomenos, Sophia Bano, Hani J. Marcus, Danail Stoyanov, Matthew J. Clarkson, Mobarak I. Hoque,
- Abstract要約: 鼻腔鏡下下下垂体手術のリアルタイム支援には,今後の外科的事象の予測が不可欠である。
ほとんどの視覚的質問応答(VQA)システムは、静的視覚言語アライメントを持つ独立したフレームを推論する。
先見的外科的推論のために設計された最初のVQAデータセットであるPitVQA-Anticipationを紹介する。
- 参考スコア(独自算出の注目度): 10.149538951173598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating forthcoming surgical events is vital for real-time assistance in endonasal transsphenoidal pituitary surgery, where visibility is limited and workflow changes rapidly. Most visual question answering (VQA) systems reason on isolated frames with static vision language alignment, providing little support for forecasting next steps or instrument needs. Existing surgical VQA datasets likewise center on the current scene rather than the near future. We introduce PitVQA-Anticipation, the first VQA dataset designed for forward looking surgical reasoning. It comprises 33.5 hours of operative video and 734,769 question answer pairs built from temporally grouped clips and expert annotations across four tasks: predicting the future phase, next step, upcoming instrument, and remaining duration. We further propose SurgAnt-ViVQA, a video language model that adapts a large language model using a GRU Gated Temporal Cross-Attention module. A bidirectional GRU encodes frame to frame dynamics, while an adaptive gate injects visual context into the language stream at the token level. Parameter efficient fine tuning customizes the language backbone to the surgical domain. SurgAnt-ViVQA tested upon on PitVQA-Anticipation and EndoVis datasets, surpassing strong image and video based baselines. Ablations show that temporal recurrence and gated fusion drive most of the gains. A frame budget study indicates a trade-off: 8 frames maximize fluency, whereas 32 frames slightly reduce BLEU but improve numeric time estimation. By pairing a temporally aware encoder with fine grained gated cross-attention, SurgAnt-ViVQA advances surgical VQA from retrospective description to proactive anticipation. PitVQA-Anticipation offers a comprehensive benchmark for this setting and highlights the importance of targeted temporal modeling for reliable, future aware surgical assistance.
- Abstract(参考訳): 鼻腔鏡下下下垂体手術のリアルタイム支援には,手術イベントの予測が不可欠であり,視認性やワークフローの急激な変化が期待できる。
視覚的質問応答(VQA)システムのほとんどは、静的な視覚言語アライメントを持つ独立したフレームを前提としており、次のステップや機器のニーズを予測するためのほとんどサポートを提供していない。
既存の外科用VQAデータセットも同様に、近い将来ではなく現在のシーンに中心を置いている。
先見的外科的推論のために設計された最初のVQAデータセットであるPitVQA-Anticipationを紹介する。
33.5時間の手術ビデオと、734,769の質問応答ペアが、時間的にグループ化されたクリップと4つのタスクからなる専門家アノテーションで構成されている。
さらに,GRU Gated Temporal Cross-Attentionモジュールを用いて,大規模言語モデルを適応させるビデオ言語モデルであるSurgAnt-ViVQAを提案する。
双方向GRUはフレームをフレームダイナミクスにエンコードし、適応ゲートはトークンレベルで言語ストリームに視覚的コンテキストを注入する。
パラメータ効率の良い微調整は、言語バックボーンを手術領域にカスタマイズする。
SurgAnt-ViVQAは、PitVQA-AnticipationとEndoVisデータセットでテストし、強力な画像とビデオベースのベースラインを超えた。
アブレーションは、時間的再発とゲート融合がほとんどの利得を駆動することを示している。
8フレームは流速を最大にするが、32フレームはBLEUをわずかに削減するが、数値時間推定を改善する。
SurgAnt-ViVQAは、時間的に認識されたエンコーダを微粒なゲート交差注意と組み合わせることで、外科的VQAを振り返り記述から前向きな予測へと前進させる。
PitVQA-Anticipationはこの設定の総合的なベンチマークを提供し、信頼性のある将来の手術支援を目的とした時間的モデリングの重要性を強調している。
関連論文リスト
- CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding [11.424693319143715]
外科領域におけるビデオ質問応答 (Video Question Answering, VideoQA) は, 時間的に整合した事象をAIモデルで推論することで, 術中理解を高めることを目的としている。
静的画像から動的手術シーンへの視覚的推論を拡張するモデルであるSurgViVQAを提案する。
Masked Video-Textを使ってビデオと質問機能を融合し、モーションやツール間のインタラクションなどの時間的手がかりをキャプチャする。
論文 参考訳(メタデータ) (2025-11-05T09:40:16Z) - State-Change Learning for Prediction of Future Events in Endoscopic Videos [8.258852831142017]
本稿ではSurgFUTRを紹介する。
ビデオクリップはSinkhorn-Knoppクラスタリングを介して状態表現に圧縮される。
我々は,短期(トリップレット,イベント)と長期(手術期間,フェーズ,ステップ遷移)の地平線にまたがる5つの予測タスクを持つSFPBenchを確立する。4つのデータセットと3つの手順による実験は,一貫した改善を示す。
論文 参考訳(メタデータ) (2025-10-14T18:25:03Z) - Saliency Guided Longitudinal Medical Visual Question Answering [9.991158264639209]
縦断的視覚的質問応答(Diff-VQA)は、異なる時間点からペアによる研究を比較する必要がある。
本稿では, 胸部X線Diff-VQAのためのサリエンシ誘導型エンコーダデコーダを提案する。
論文 参考訳(メタデータ) (2025-09-29T18:26:17Z) - SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。
外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。
外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-08-30T04:36:41Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Advancing Surgical VQA with Scene Graph Knowledge [45.05847978115387]
我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
論文 参考訳(メタデータ) (2023-12-15T22:50:12Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。