論文の概要: CenterCLIP: Token Clustering for Efficient Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2205.00823v1
- Date: Mon, 2 May 2022 12:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:04:05.352548
- Title: CenterCLIP: Token Clustering for Efficient Text-Video Retrieval
- Title(参考訳): CenterCLIP: 効率的なテキストビデオ検索のためのトークンクラスタリング
- Authors: Shuai Zhao and Linchao Zhu and Xiaohan Wang and Yi Yang
- Abstract要約: CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 67.21528544724546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, large-scale pre-training methods like CLIP have made great progress
in multi-modal research such as text-video retrieval. In CLIP, transformers are
vital for modeling complex multi-modal relations. However, in the vision
transformer of CLIP, the essential visual tokenization process, which produces
discrete visual token sequences, generates many homogeneous tokens due to the
redundancy nature of consecutive and similar frames in videos. This
significantly increases computation costs and hinders the deployment of video
retrieval models in web applications. In this paper, to reduce the number of
redundant video tokens, we design a multi-segment token clustering algorithm to
find the most representative tokens and drop the non-essential ones. As the
frame redundancy occurs mostly in consecutive frames, we divide videos into
multiple segments and conduct segment-level clustering. Center tokens from each
segment are later concatenated into a new sequence, while their original
spatial-temporal relations are well maintained. We instantiate two clustering
algorithms to efficiently find deterministic medoids and iteratively partition
groups in high dimensional space. Through this token clustering and center
selection procedure, we successfully reduce computation costs by removing
redundant visual tokens. This method further enhances segment-level semantic
alignment between video and text representations, enforcing the spatio-temporal
interactions of tokens from within-segment frames. Our method, coined as
CenterCLIP, surpasses existing state-of-the-art by a large margin on typical
text-video benchmarks, while reducing the training memory cost by 35\% and
accelerating the inference speed by 14\% at the best case. The code is
available at
\href{{https://github.com/mzhaoshuai/CenterCLIP}}{{https://github.com/mzhaoshuai/CenterCLIP}}.
- Abstract(参考訳): 近年,CLIPのような大規模事前学習手法は,テキストビデオ検索などのマルチモーダル研究において大きな進歩を遂げている。
CLIPでは、トランスフォーマーは複雑なマルチモーダル関係をモデル化するのに不可欠である。
しかし、CLIPの視覚変換では、ビデオ内の連続的および類似したフレームの冗長性のため、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが多くの均一なトークンを生成する。
これにより計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開を妨げる。
本稿では,冗長なビデオトークンの数を減らすために,最も代表的なトークンを見つけて不要なトークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
フレーム冗長性は、主に連続するフレームで発生するため、動画を複数のセグメントに分割し、セグメントレベルのクラスタリングを行う。
各セグメントのセンタートークンは後に新しいシーケンスに結合されるが、元の空間-時間関係はよく維持される。
2つのクラスタリングアルゴリズムをインスタンス化し、決定論的メドロイドと反復的分割群を高次元空間で効率的に見つける。
このトークンクラスタリングと中心選択により、冗長な視覚トークンを除去することで計算コストを削減できる。
本手法は,映像表現とテキスト表現のセグメントレベルの意味的アライメントをさらに強化し,セグメント内フレームからトークンの時空間的相互作用を強制する。
提案手法はCenterCLIPと呼ばれ,一般的なテキストビデオベンチマークにおいて,既存の最先端技術よりも大きなマージンで,トレーニングメモリコストを35倍に削減し,ベストケースでは推論速度を14倍に向上させる。
コードは \href{{https://github.com/mzhaoshuai/CenterCLIP}}{{https://github.com/mzhaoshuai/CenterCLIP}} で公開されている。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Dense Video Captioning Using Unsupervised Semantic Information [2.022555840231001]
本稿では,複雑な事象をより単純な事象に分解できるという前提に基づいて,教師なしの視覚情報を学習する手法を提案する。
長いビデオを短いフレームシーケンスに分割し、3次元畳み込みニューラルネットワークで潜在表現を抽出した。
この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。
論文 参考訳(メタデータ) (2021-12-15T20:03:42Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。