論文の概要: $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2404.00801v1
- Date: Sun, 31 Mar 2024 21:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 01:41:21.590317
- Title: $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding
- Title(参考訳): $R^2$-Tuning:ビデオ時間グラウンドのための効率的な画像-映像間変換学習
- Authors: Ye Liu, Jixuan He, Wanhua Li, Junsik Kim, Donglai Wei, Hanspeter Pfister, Chang Wen Chen,
- Abstract要約: ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
- 参考スコア(独自算出の注目度): 41.69321731689751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) is a fine-grained video understanding problem that aims to ground relevant clips in untrimmed videos given natural language queries. Most existing VTG models are built upon frame-wise final-layer CLIP features, aided by additional temporal backbones (e.g., SlowFast) with sophisticated temporal reasoning mechanisms. In this work, we claim that CLIP itself already shows great potential for fine-grained spatial-temporal modeling, as each layer offers distinct yet useful information under different granularity levels. Motivated by this, we propose Reversed Recurrent Tuning ($R^2$-Tuning), a parameter- and memory-efficient transfer learning framework for video temporal grounding. Our method learns a lightweight $R^2$ Block containing only 1.5% of the total parameters to perform progressive spatial-temporal modeling. Starting from the last layer of CLIP, $R^2$ Block recurrently aggregates spatial features from earlier layers, then refines temporal correlation conditioning on the given query, resulting in a coarse-to-fine scheme. $R^2$-Tuning achieves state-of-the-art performance across three VTG tasks (i.e., moment retrieval, highlight detection, and video summarization) on six public benchmarks (i.e., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights, and TVSum) even without the additional backbone, demonstrating the significance and effectiveness of the proposed scheme. Our code is available at https://github.com/yeliudev/R2-Tuning.
- Abstract(参考訳): ビデオ時間グラウンドリング(VTG)は、自然言語クエリが与えられたビデオに関連性のあるクリップを埋め込むことを目的とした、きめ細かいビデオ理解の問題である。
既存のVTGモデルは、フレームワイドの最終層CLIP機能に基づいて構築されており、洗練された時間的推論機構を備えた追加の時間的バックボーン(例:SlowFast)によって支援されている。
本研究では,CLIP自体が,各層が異なる粒度レベル下で有用な情報を提供するため,より微細な時空間モデリングに非常に有意な可能性を示唆している。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の学習フレームワークであるReversed Recurrent Tuning(R^2$-Tuning)を提案する。
提案手法は,プログレッシブな時空間時間モデリングを行うために,全パラメータの1.5%しか含まない軽量な$R^2$ブロックを学習する。
CLIPの最後のレイヤから始まる$R^2$ Blockは、以前のレイヤから空間的特徴をリカレントに集約し、与えられたクエリの時間的相関条件を洗練し、粗い構造になる。
R^2$-Tuningは、追加のバックボーンなしで6つの公開ベンチマーク(QVHighlights、Charades-STA、Ego4D-NLQ、TACoS、YouTube Highlights、TVSum)における3つのVTGタスク(モーメント検索、ハイライト検出、ビデオ要約)における最先端のパフォーマンスを実現し、提案されたスキームの重要性と効果を実証する。
私たちのコードはhttps://github.com/yeliudev/R2-Tuning.comから入手可能です。
関連論文リスト
- Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。