Fugu-MT 論文翻訳(概要): TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

論文の概要: TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

arxiv url: http://arxiv.org/abs/2409.01156v2
Date: Wed, 12 Mar 2025 09:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.36301
Title: TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval
Title（参考訳）: TempMe: テキスト・ビデオ検索に便利なビデオ・テンポラル・トーケン・マージ
Authors: Leqi Shen, Tianxiang Hao, Tao He, Sicheng Zhao, Yifeng Zhang, Pengzhang Liu, Yongjun Bao, Guiguang Ding,
Abstract要約: TempMeはパラメータ効率とトレーニング推論効率のよいテキストビデオ検索アーキテクチャである。出力トークンを95%減らし、GFLOPを51%減らし、1.8倍のスピードアップと4.4%のR-Sum改善を実現した。完全な微調整により、TempMeは7.9%のR-Sumの改善、1.57倍の高速化、75.2%のGPUメモリ使用率を実現している。
参考スコア（独自算出の注目度）: 39.39503352654361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most text-video retrieval methods utilize the text-image pre-trained models like CLIP as a backbone. These methods process each sampled frame independently by the image encoder, resulting in high computational overhead and limiting practical deployment. Addressing this, we focus on efficient text-video retrieval by tackling two key challenges: 1. From the perspective of trainable parameters, current parameter-efficient fine-tuning methods incur high inference costs; 2. From the perspective of model complexity, current token compression methods are mainly designed for images to reduce spatial redundancy but overlook temporal redundancy in consecutive frames of a video. To tackle these challenges, we propose Temporal Token Merging (TempMe), a parameter-efficient and training-inference efficient text-video retrieval architecture that minimizes trainable parameters and model complexity. Specifically, we introduce a progressive multi-granularity framework. By gradually combining neighboring clips, we reduce spatio-temporal redundancy and enhance temporal modeling across different frames, leading to improved efficiency and performance. Extensive experiments validate the superiority of our TempMe. Compared to previous parameter-efficient text-video retrieval methods, TempMe achieves superior performance with just 0.50M trainable parameters. It significantly reduces output tokens by 95% and GFLOPs by 51%, while achieving a 1.8X speedup and a 4.4% R-Sum improvement. With full fine-tuning, TempMe achieves a significant 7.9% R-Sum improvement, trains 1.57X faster, and utilizes 75.2% GPU memory usage. The code is available at https://github.com/LunarShen/TempMe.
Abstract（参考訳）: ほとんどのテキストビデオ検索方法は、CLIPのようなトレーニング済みのテキストイメージをバックボーンとして利用する。これらの手法は、画像エンコーダによって各サンプルフレームを独立に処理し、計算オーバーヘッドが高く、実際の配置が制限される。そこで本研究では,2つの課題に対処し,効率的なテキストビデオ検索に焦点を当てた。 1. トレーニング可能なパラメータの観点から、現在のパラメータ効率の高い微調整手法は、高い推論コストを発生させる。 2. モデル複雑性の観点からは,現行のトークン圧縮法は主に空間的冗長性を低減するために設計されているが,ビデオの連続フレームにおける時間的冗長性を見落としている。これらの課題に対処するために、トレーニング可能なパラメータとモデルの複雑さを最小限に抑えるパラメータ効率とトレーニング推論効率のよいテキストビデオ検索アーキテクチャであるTempMe(TempMe)を提案する。具体的には、プログレッシブ・マルチグラニュラリティ・フレームワークを導入する。隣接するクリップを徐々に組み合わせることで、時空間冗長性を低減し、異なるフレーム間の時間的モデリングを強化し、効率と性能を向上させる。大規模な実験により、TempMeの優位性が検証された。従来のパラメータ効率のよいテキストビデオ検索手法と比較して、TempMeはわずか0.05Mのトレーニング可能なパラメータで優れたパフォーマンスを実現している。出力トークンを95%、GFLOPを51%削減し、1.8倍のスピードアップと4.4%のR-Sum改善を実現した。完全な微調整により、TempMeは7.9%のR-Sumの改善、1.57倍の高速化、75.2%のGPUメモリ使用率を実現している。コードはhttps://github.com/LunarShen/TempMeで入手できる。

関連論文リスト

Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文参考訳（メタデータ） (2025-02-27T08:20:03Z)
Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文参考訳（メタデータ） (2025-02-11T16:58:15Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文参考訳（メタデータ） (2024-05-29T19:23:53Z)
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文参考訳（メタデータ） (2024-01-01T08:54:18Z)
VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文参考訳（メタデータ） (2023-12-17T09:05:56Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。 TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-10-29T16:25:32Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
Asymmetric Learned Image Compression with Multi-Scale Residual Block, Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-21T09:34:29Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)
Frame-To-Frame Consistent Semantic Segmentation [2.538209532048867]
我々は、ビデオ内の連続したフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。その結果,時間情報を追加することで,フレーム間の一貫性とより正確な画像理解が得られることがわかった。
論文参考訳（メタデータ） (2020-08-03T15:28:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。