論文の概要: TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2409.01156v1
- Date: Mon, 2 Sep 2024 10:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:13:03.195560
- Title: TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval
- Title(参考訳): TempMe: テキスト・ビデオ検索に便利なビデオ・テンポラル・トーケン・マージ
- Authors: Leqi Shen, Tianxiang Hao, Sicheng Zhao, Yifeng Zhang, Pengzhang Liu, Yongjun Bao, Guiguang Ding,
- Abstract要約: 本稿では,時間的冗長性を低減するため,時間的トークンマージ(TempMe)を提案する。
また,TempMeは出力トークンを95%,GFLOPを51%削減し,1.8倍の高速化と4.4%のR-Sum改善を実現した。
完全な微調整により、TempMeは7.9%のR-Sumの改善、1.57倍の高速化、75.2%のGPUメモリ使用率を実現している。
- 参考スコア(独自算出の注目度): 36.761817687670465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most text-video retrieval methods utilize the text-image pre-trained CLIP as a backbone, incorporating complex modules that result in high computational overhead. As a result, many studies focus on efficient fine-tuning. The primary challenge in efficient adaption arises from the inherent differences between image and video modalities. Each sampled video frame must be processed by the image encoder independently, which increases complexity and complicates practical deployment. Although existing efficient methods fine-tune with small trainable parameters, they still incur high inference costs due to the large token number. In this work, we argue that temporal redundancy significantly contributes to the model's high complexity due to the repeated information in consecutive frames. Existing token compression methods for image models fail to solve the unique challenges, as they overlook temporal redundancy across frames. To tackle these problems, we propose Temporal Token Merging (TempMe) to reduce temporal redundancy. Specifically, we introduce a progressive multi-granularity framework. By gradually combining neighboring clips, we merge temporal tokens across different frames and learn video-level features, leading to lower complexity and better performance. Extensive experiments validate the superiority of our TempMe. Compared to previous efficient text-video retrieval methods, TempMe significantly reduces output tokens by 95% and GFLOPs by 51%, while achieving a 1.8X speedup and a 4.4% R-Sum improvement. Additionally, TempMe exhibits robust generalization capabilities by integrating effectively with both efficient and full fine-tuning methods. With full fine-tuning, TempMe achieves a significant 7.9% R-Sum improvement, trains 1.57X faster, and utilizes 75.2% GPU memory usage. Our code will be released.
- Abstract(参考訳): ほとんどのテキストビデオ検索手法は、テキストイメージを事前訓練したCLIPをバックボーンとして使用し、計算オーバーヘッドの高い複雑なモジュールを組み込む。
その結果、多くの研究が効率的な微調整に焦点を当てた。
効率的な適応の第一の課題は、画像とビデオのモダリティの固有の相違から生じる。
各サンプルビデオフレームは、画像エンコーダによって独立して処理されなければならない。
既存の効率的な方法は訓練可能なパラメータを小さく微調整するが、大きなトークン数のために高い推論コストを発生させる。
本研究では,時間的冗長性は連続するフレームにおける繰り返し情報により,モデルの複雑さに大きく寄与する,と論じる。
既存の画像モデルのトークン圧縮手法では、フレーム間の時間的冗長性を見落としているため、ユニークな課題を解決できない。
これらの課題に対処するため,時間的冗長性を低減するため,TempMe(TempMe)を提案する。
具体的には、プログレッシブ・マルチグラニュラリティ・フレームワークを導入する。
近隣のクリップを徐々に組み合わせることで、異なるフレームに時間トークンをマージし、ビデオレベルの特徴を学習することで、複雑さの低減とパフォーマンスの向上を実現します。
大規模な実験により、TempMeの優位性が検証された。
従来の効率的なテキストビデオ検索手法と比較して、TempMeは出力トークンを95%、GFLOPを51%削減し、1.8倍の高速化と4.4%のR-Sum改善を実現した。
さらにTempMeは、効率的かつ完全な微調整手法を効果的に統合することで、堅牢な一般化能力を示す。
完全な微調整により、TempMeは7.9%のR-Sumの改善、1.57倍の高速化、75.2%のGPUメモリ使用率を実現している。
私たちのコードは解放されます。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Frame-To-Frame Consistent Semantic Segmentation [2.538209532048867]
我々は、ビデオ内の連続したフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。
その結果,時間情報を追加することで,フレーム間の一貫性とより正確な画像理解が得られることがわかった。
論文 参考訳(メタデータ) (2020-08-03T15:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。