論文の概要: Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames
- arxiv url: http://arxiv.org/abs/2210.08452v1
- Date: Sun, 16 Oct 2022 05:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:21:44.769968
- Title: Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames
- Title(参考訳): メタ最適化フレームを用いた効率的なクロスモーダルビデオ検索
- Authors: Ning Han, Xun Yang, Ee-Peng Lim, Hao Chen, Qianru Sun
- Abstract要約: クロスモーダルなビデオ検索は、テキストを問合せとして与えられた意味のあるビデオを取得することを目的としている。
一般的な単純な解決策は、ビデオからViTへの入力として少数のフレームを均一にサンプリングすることである。
本稿では,このトレードオフを解消するために,バイレベル最適化プログラムに基づく自動ビデオ圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 39.03408879727955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal video retrieval aims to retrieve the semantically relevant videos
given a text as a query, and is one of the fundamental tasks in Multimedia.
Most of top-performing methods primarily leverage Visual Transformer (ViT) to
extract video features [1, 2, 3], suffering from high computational complexity
of ViT especially for encoding long videos. A common and simple solution is to
uniformly sample a small number (say, 4 or 8) of frames from the video (instead
of using the whole video) as input to ViT. The number of frames has a strong
influence on the performance of ViT, e.g., using 8 frames performs better than
using 4 frames yet needs more computational resources, resulting in a
trade-off. To get free from this trade-off, this paper introduces an automatic
video compression method based on a bilevel optimization program (BOP)
consisting of both model-level (i.e., base-level) and frame-level (i.e.,
meta-level) optimizations. The model-level learns a cross-modal video retrieval
model whose input is the "compressed frames" learned by frame-level
optimization. In turn, the frame-level optimization is through gradient descent
using the meta loss of video retrieval model computed on the whole video. We
call this BOP method as well as the "compressed frames" as Meta-Optimized
Frames (MOF). By incorporating MOF, the video retrieval model is able to
utilize the information of whole videos (for training) while taking only a
small number of input frames in actual implementation. The convergence of MOF
is guaranteed by meta gradient descent algorithms. For evaluation, we conduct
extensive experiments of cross-modal video retrieval on three large-scale
benchmarks: MSR-VTT, MSVD, and DiDeMo. Our results show that MOF is a generic
and efficient method to boost multiple baseline methods, and can achieve a new
state-of-the-art performance.
- Abstract(参考訳): クロスモーダルビデオ検索は,テキストを問合せとして与えられた意味的関連動画を検索することを目的としており,マルチメディアにおける基本的な課題の1つである。
トップパフォーマンスの手法のほとんどは、主にVisual Transformer (ViT) を利用してビデオの特徴[1, 2, 3]を抽出する。
一般的な単純な解決策は、ビデオから(ビデオ全体を使用する代わりに)少量のフレーム(例えば4または8)をViTへの入力として一様にサンプリングすることである。
フレームの数はViTの性能に大きく影響し、例えば8フレームの使用は4フレームを使用するよりも性能が良く、計算資源がより多く必要であり、トレードオフをもたらす。
このトレードオフから解放するために、モデルレベル(ベースレベル)とフレームレベル(メタレベル)の両方の最適化からなるバイレベル最適化プログラム(BOP)に基づく自動ビデオ圧縮手法を提案する。
モデルレベルは、フレームレベルの最適化によって学習される「圧縮フレーム」を入力とするクロスモーダルビデオ検索モデルを学ぶ。
フレームレベルの最適化は、ビデオ全体上で計算されたビデオ検索モデルのメタロスを用いた勾配降下によるものである。
我々はこのBOP手法と「圧縮フレーム」をメタ最適化フレーム(MOF)と呼ぶ。
MOFを取り入れることで、ビデオ検索モデルは、実際の実装において少数の入力フレームのみを取り込みながら、(トレーニングのために)ビデオ全体の情報を利用することができる。
MOFの収束はメタ勾配降下アルゴリズムによって保証される。
評価のために,MSR-VTT,MSVD,DiDeMoの3つの大規模ベンチマークでクロスモーダルビデオ検索実験を行った。
この結果から,MOFは複数のベースライン法を高速化する汎用的かつ効率的な手法であり,新しい最先端性能を実現することができることがわかった。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Frame-Voyager: Learning to Query Frames for Video Large Language Models [33.84793162102087]
ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。
フレームの一様サンプリングやテキストフレーム検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変動を考慮できない。
タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せする Frame-Voyager を提案する。
論文 参考訳(メタデータ) (2024-10-04T08:26:06Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。