論文の概要: Temporal Cluster Assignment for Efficient Real-Time Video Segmentation
- arxiv url: http://arxiv.org/abs/2508.05851v1
- Date: Thu, 07 Aug 2025 20:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.010789
- Title: Temporal Cluster Assignment for Efficient Real-Time Video Segmentation
- Title(参考訳): 効率的なリアルタイムビデオ分割のための時間的クラスタ割り当て
- Authors: Ka-Wai Yung, Felix J. S. Bragman, Jialang Xu, Imanol Luengo, Danail Stoyanov, Evangelos B. Mazomenos,
- Abstract要約: ビジョントランスフォーマーは、画像ドメインとビデオドメインの両方にわたるセグメンテーションモデルの性能を大幅に向上させた。
Swinのウィンドウベースのアテンションメカニズムは、ウィンドウ毎に一定数のトークンを必要とするため、従来のプルーニング技術の適用性が制限される。
時間的コヒーレンスを活用してトークンクラスタリングを強化する軽量かつ効果的で微調整のない戦略である時間的クラスタ割り当て(TCA)を導入する。
- 参考スコア(独自算出の注目度): 9.248291541710781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have substantially advanced the capabilities of segmentation models across both image and video domains. Among them, the Swin Transformer stands out for its ability to capture hierarchical, multi-scale representations, making it a popular backbone for segmentation in videos. However, despite its window-attention scheme, it still incurs a high computational cost, especially in larger variants commonly used for dense prediction in videos. This remains a major bottleneck for real-time, resource-constrained applications. Whilst token reduction methods have been proposed to alleviate this, the window-based attention mechanism of Swin requires a fixed number of tokens per window, limiting the applicability of conventional pruning techniques. Meanwhile, training-free token clustering approaches have shown promise in image segmentation while maintaining window consistency. Nevertheless, they fail to exploit temporal redundancy, missing a key opportunity to further optimize video segmentation performance. We introduce Temporal Cluster Assignment (TCA), a lightweight and effective, fine-tuning-free strategy that enhances token clustering by leveraging temporal coherence across frames. Instead of indiscriminately dropping redundant tokens, TCA refines token clusters using temporal correlations, thereby retaining fine-grained details while significantly reducing computation. Extensive evaluations on YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and a private surgical video dataset show that TCA consistently boosts the accuracy-speed trade-off of existing clustering-based methods. Our results demonstrate that TCA generalizes competently across both natural and domain-specific videos.
- Abstract(参考訳): ビジョントランスフォーマーは、画像ドメインとビデオドメインの両方にわたるセグメンテーションモデルの性能を大幅に向上させた。
中でもSwin Transformerは、階層的でマルチスケールな表現をキャプチャできる能力で、ビデオのセグメンテーションのバックボーンとして人気がある。
しかし、そのウィンドウアテンションスキームにもかかわらず、特にビデオの高密度な予測によく使われる大きな変種において、高い計算コストを発生させる。
これは、リアルタイムでリソースに制約のあるアプリケーションにとって、依然として大きなボトルネックです。
これを軽減するためにトークン削減法が提案されているが、Swinのウィンドウベースのアテンションメカニズムは、ウィンドウ毎に一定数のトークンを必要とするため、従来のプルーニング技術の適用性が制限されている。
一方、トレーニング不要なトークンクラスタリングアプローチは、ウィンドウの一貫性を維持しながら、イメージセグメンテーションにおいて有望であることを示している。
それでも、彼らは時間的冗長性を活用できず、ビデオセグメンテーションのパフォーマンスをさらに最適化する重要な機会を欠いた。
本稿では,フレーム間の時間的コヒーレンスを活用してトークンクラスタリングを強化する,軽量かつ効果的かつ微調整不要な戦略であるTCAを導入する。
TCAは、無差別に冗長なトークンをドロップする代わりに、時間的相関を使ってトークンクラスタを洗練し、微妙な詳細を維持しながら計算を著しく削減する。
YouTube-VIS 2019、YouTube-VIS 2021、OVIS、およびプライベートな手術用ビデオデータセットに対する大規模な評価は、TCAが既存のクラスタリングベースの手法の精度と速度のトレードオフを一貫して促進していることを示している。
以上の結果から,TAは自然ビデオとドメイン固有ビデオの両方で有能な一般化を図っている。
関連論文リスト
- Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Temporal-attentive Covariance Pooling Networks for Video Recognition [52.853765492522655]
既存のビデオアーキテクチャは、通常、単純なグローバル平均プール法(GAP)を用いてグローバル表現を生成する。
本稿では,深いアーキテクチャの端に挿入される減衰共分散プーリング(TCP-TCP)を提案する。
我々のTCPはモデルに依存しないため、任意のビデオアーキテクチャに柔軟に統合できるため、効果的なビデオ認識のためのTCPNetとなる。
論文 参考訳(メタデータ) (2021-10-27T12:31:29Z) - Unsupervised Action Segmentation by Joint Representation Learning and
Online Clustering [10.057155889852174]
本稿では,ビデオフレームクラスタリングをプレテキストタスクとして利用する,教師なしアクティビティセグメンテーションのための新しい手法を提案する。
我々は時間的最適輸送を利用してビデオの時間的情報を活用する。
我々の手法は、メモリの制約が大幅に少ないにもかかわらず、以前の方法と同等かそれ以上に機能する。
論文 参考訳(メタデータ) (2021-05-27T17:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。