論文の概要: Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining
- arxiv url: http://arxiv.org/abs/2603.22953v1
- Date: Tue, 24 Mar 2026 08:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.387052
- Title: Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining
- Title(参考訳): 効率的なビデオランゲージ事前学習のためのクラスタワイズ時空間マスキング
- Authors: Weijun Zhuang, Yuqing Huang, Weikang Meng, Xin Li, Ming Liu, Xiaopeng Hong, Yaowei Wang, Wangmeng Zuo,
- Abstract要約: ClusterSTMは、効率的なビデオ言語事前学習のためのクラスタワイズ時空間マスキング戦略である。
従来の視覚的再構成以上の高レベルなマルチモーダル・セマンティクスを整列するビデオテキスト関連性再構築手法を提案する。
- 参考スコア(独自算出の注目度): 86.49790441700195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video-language pretraining enables strong generalization across multimodal tasks but often incurs prohibitive computational costs. Although recent advances in masked visual modeling help mitigate this issue, they still suffer from two fundamental limitations: severe visual information loss under high masking ratios and temporal information leakage caused by inter-frame correlations. To address these challenges, we propose ClusterSTM, a Cluster-Wise Spatio-Temporal Masking strategy for efficient video-language pretraining. ClusterSTM first performs intra-frame clustering to partition visual tokens into multiple semantically independent clusters, then conducts cluster-wise masking by retaining the token with the highest temporal density within each cluster. Our masking strategy ensure that the retained tokens capture holistic video content while exhibit strong temporal correlation. Additionally, we introduce a video-text relevance reconstruction objective that aligns high-level multimodal semantics beyond conventional visual reconstruction. Extensive experiments across multiple benchmarks demonstrate that ClusterSTM achieves superior performance on video-text retrieval, video question answering, and video captioning tasks, establishing a new state-of-the-art among efficient video-language models.
- Abstract(参考訳): 大規模なビデオ言語事前学習は、マルチモーダルタスクをまたいで強力な一般化を可能にするが、しばしば禁忌な計算コストを発生させる。
マスク付き視覚モデリングの最近の進歩はこの問題を軽減するのに役立っているが、高いマスキング比下での深刻な視覚情報損失と、フレーム間の相関による時間的情報漏洩という2つの基本的な限界に悩まされている。
これらの課題に対処するために,クラスタワイズ時空間マスキング戦略であるClusterSTMを提案する。
ClusterSTMはまず、フレーム内のクラスタリングを実行して、視覚トークンを複数のセマンティックな独立クラスタに分割し、各クラスタ内で最も時間密度の高いトークンを保持することによって、クラスタワイズマスキングを実行する。
我々のマスキング戦略は、保持されたトークンが時間的相関を強く保ちながら、総観的なビデオコンテンツをキャプチャすることを保証する。
さらに,従来の視覚的再構成以上の高レベルなマルチモーダル・セマンティクスを整列するビデオテキスト関連性再構築の目的についても紹介する。
複数のベンチマークにわたる大規模な実験により、ClusterSTMは、ビデオテキスト検索、ビデオ質問応答、ビデオキャプションタスクにおいて優れたパフォーマンスを達成し、効率的なビデオ言語モデルの間に新たな最先端技術を確立することが示されている。
関連論文リスト
- SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM [36.28285195488772]
大規模言語モデル(LLM)は、テキスト理解において例外的な能力を示した。
Vid-LLMは高品質なフレームレベルのセマンティック情報を同時に保持するのに苦労する。
この制限は、Vid-LLMの微細なビデオ理解への進歩を妨げる。
論文 参考訳(メタデータ) (2026-02-03T14:39:16Z) - MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos [22.175314789730667]
MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。
微粒で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-11T08:18:22Z) - Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features [10.21556794551883]
本稿では,エンド・ツー・エンドのトレーニングを回避できる,ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、高次元の特徴空間内の自己監督的時間的クラスタリングとしての映像理解である。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
論文 参考訳(メタデータ) (2025-10-19T10:13:34Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。