論文の概要: DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification
- arxiv url: http://arxiv.org/abs/2506.12585v1
- Date: Sat, 14 Jun 2025 17:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.498216
- Title: DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification
- Title(参考訳): DejaVid: ビデオ分類のためのエンコーダ非学習時間マッチング
- Authors: Darryl Ho, Samuel Madden,
- Abstract要約: DejaVidは、アーキテクチャの再トレーニングや変更を必要とせずに、モデルパフォーマンスを向上させるエンコーダに依存しない方法である。
この学習タスクのために,従来の時系列アライメントアルゴリズムにインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。
評価の結果,DejaVidは最先端の大規模エンコーダの性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 4.973664680272982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large transformer-based video encoder models have greatly advanced state-of-the-art performance on video classification tasks. However, these large models typically process videos by averaging embedding outputs from multiple clips over time to produce fixed-length representations. This approach fails to account for a variety of time-related features, such as variable video durations, chronological order of events, and temporal variance in feature significance. While methods for temporal modeling do exist, they often require significant architectural changes and expensive retraining, making them impractical for off-the-shelf, fine-tuned large encoders. To overcome these limitations, we propose DejaVid, an encoder-agnostic method that enhances model performance without the need for retraining or altering the architecture. Our framework converts a video into a variable-length temporal sequence of embeddings, which we call a multivariate time series (MTS). An MTS naturally preserves temporal order and accommodates variable video durations. We then learn per-timestep, per-feature weights over the encoded MTS frames, allowing us to account for variations in feature importance over time. We introduce a new neural network architecture inspired by traditional time series alignment algorithms for this learning task. Our evaluation demonstrates that DejaVid substantially improves the performance of a state-of-the-art large encoder, achieving leading Top-1 accuracy of 77.2% on Something-Something V2, 89.1% on Kinetics-400, and 88.6% on HMDB51, while adding fewer than 1.8% additional learnable parameters and requiring less than 3 hours of training time. Our code is available at https://github.com/darrylho/DejaVid.
- Abstract(参考訳): 近年,大規模なトランスフォーマーベースのビデオエンコーダモデルでは,映像分類タスクにおける最先端性能が大幅に向上している。
しかし、これらの大きなモデルは、時間をかけて複数のクリップからの埋め込み出力を平均化し、固定長の表現を生成することで、ビデオを処理するのが一般的である。
このアプローチでは、可変ビデオ時間、時系列イベントの順序、特徴量における時間差など、さまざまな時間的特徴を考慮できない。
時間モデリングの手法は存在するが、しばしば重要なアーキテクチャ変更と高価な再訓練を必要とし、既製の細調整の大型エンコーダでは実用的ではない。
これらの制限を克服するために,アーキテクチャの再トレーニングや変更を必要とせずにモデル性能を向上させるエンコーダに依存しないデジャビッドを提案する。
本フレームワークは,動画を多変量時系列(MTS)と呼ぶ埋め込みの可変長時間列に変換する。
MTSは、時間順を自然に保存し、可変ビデオ期間を許容する。
次に、符号化されたMSSフレーム上で、タイムステップごとの重み付けを学習し、時間とともに機能の重要性の変動を考慮に入れます。
この学習タスクのために,従来の時系列アライメントアルゴリズムにインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。
評価の結果,DejaVidは最先端の大規模エンコーダの性能を大幅に向上し,Something V2では77.2%,Kinetics-400では89.1%,HMDB51では88.6%,学習可能なパラメータは1.8%未満,トレーニング時間は3時間未満であった。
私たちのコードはhttps://github.com/darrylho/DejaVid.comから入手可能です。
関連論文リスト
- Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。