論文の概要: Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding
- arxiv url: http://arxiv.org/abs/2509.23672v1
- Date: Sun, 28 Sep 2025 06:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.365163
- Title: Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding
- Title(参考訳): 手術映像理解のための時空間情報マイニングによるトークンマージ
- Authors: Xixi Jiang, Chen Yang, Dong Zhang, Pingcheng Dong, Xin Yang, Kwang-Ting Cheng,
- Abstract要約: 本稿では,画像理解トークン統合法(STIM-TM)を提案する。
STIM-TMは、時間的および空間的次元に沿ってトークンの冗長性を独立に減少させる分離戦略を導入する。
STIM-TMは、トレーニングなしの方法で動作し、65ドル以上のGFLOPを削減し、総合的な手術ビデオタスク間の競争精度を維持しながら、かなりの効率を達成する。
- 参考スコア(独自算出の注目度): 32.4892900455388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer models have shown impressive effectiveness in the surgical video understanding tasks through long-range dependency modeling. However, current methods suffer from prohibitive computational costs due to processing massive spatiotemporal tokens across video frames. While prior work on token merging has advanced model efficiency, they fail to adequately consider the inherent spatiotemporal structure of video data and overlook the heterogeneous nature of information distribution, leading to suboptimal performance. In this paper, we propose a spatiotemporal information mining token merging (STIM-TM) method, representing the first dedicated approach for surgical video understanding. STIM-TM introduces a decoupled strategy that reduces token redundancy along temporal and spatial dimensions independently. Specifically, the temporal component merges spatially corresponding tokens from consecutive frames using saliency weighting, preserving critical sequential information and maintaining continuity. Meanwhile, the spatial component prioritizes merging static tokens through temporal stability analysis, protecting dynamic regions containing essential surgical information. Operating in a training-free manner, STIM-TM achieves significant efficiency gains with over $65\%$ GFLOPs reduction while preserving competitive accuracy across comprehensive surgical video tasks. Our method also supports efficient training of long-sequence surgical videos, addressing computational bottlenecks in surgical applications.
- Abstract(参考訳): ビジョントランスフォーマーモデルは、長距離依存性モデリングによる手術ビデオ理解タスクにおいて顕著な効果を示した。
しかし、現在の手法は、ビデオフレーム全体にわたる大規模な時空間トークンの処理によって、計算コストの禁止に悩まされている。
トークンマージの先行研究は、より高度なモデル効率を持つが、ビデオデータ固有の時空間構造を適切に考慮し、情報分布の不均一性を見落とし、最適以下の性能をもたらす。
本稿では,外科的ビデオ理解のための最初の専用のアプローチとして,時空間情報マイニングトークンマージ(STIM-TM)法を提案する。
STIM-TMは、時間的および空間的次元に沿ってトークンの冗長性を独立に減少させる分離戦略を導入する。
具体的には、時間成分は、サリエンシ重み付けを用いて連続フレームから空間的に対応するトークンをマージし、重要なシーケンシャル情報を保存し、連続性を維持する。
一方、空間成分は、時間的安定性解析により静的トークンのマージを優先し、重要な外科情報を含む動的領域を保護する。
トレーニングフリーのSTIM-TMは、総合的な手術ビデオタスク間の競争精度を保ちながら、65\%以上のGFLOPを削減し、大幅な効率向上を実現している。
本手法は, 手術現場での計算ボトルネックに対処するため, 長期的手術映像の効率的な訓練も支援している。
関連論文リスト
- Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。
フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。
提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文 参考訳(メタデータ) (2026-03-02T03:06:40Z) - Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics [2.582839864045357]
外科的段階とビデオからの段階を認識することは、コンピュータによる介入の基本的な問題である。
最近のアプローチでは、何千ものラベル付き外科的ビデオに大規模な事前トレーニングを頼りにしており、その後、特定の手順にゼロショットで移行している。
外科的位相とステップ認識のための教師なし手法であるテキスト拡張アクション最適輸送(TASOT)を提案する。
論文 参考訳(メタデータ) (2026-02-27T16:15:58Z) - Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential [26.958261975749974]
手術シーンセグメンテーションに適した最初のスパイク駆動ビデオトランスフォーマーフレームワークである textitSpikeSurgSeg を提案する。
SpikeSurgSegは、SOTA ANNベースのモデルに匹敵するほとんどのmIoUを実現し、推論遅延を少なくとも8倍に削減する。
論文 参考訳(メタデータ) (2025-12-24T17:05:09Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
注意力をより効果的に利用し,手作り制約を必要としない新しいアプローチを提案する。
TuNeSは、畳み込みU-Net構造のコアに自己アテンションを組み込んだ、効率的でシンプルな時間モデルである。
TuNeSはColec80データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。