論文の概要: FRAME: Pre-Training Video Feature Representations via Anticipation and Memory
- arxiv url: http://arxiv.org/abs/2506.05543v1
- Date: Thu, 05 Jun 2025 19:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.210778
- Title: FRAME: Pre-Training Video Feature Representations via Anticipation and Memory
- Title(参考訳): FRAME:予見と記憶によるビデオ機能の事前学習
- Authors: Sethuraman TV, Savya Khosla, Vignesh Srinivasakumar, Jiahui Huang, Seoung Wug Oh, Simon Jenni, Derek Hoiem, Joon-Young Lee,
- Abstract要約: FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。
同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。
画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 55.046881477209695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video prediction tasks, such as object tracking and semantic segmentation, require video encoders that generate temporally consistent, spatially dense features for every frame. However, existing approaches fall short: image encoders like DINO or CLIP lack temporal awareness, while video models such as VideoMAE underperform compared to image encoders on dense prediction tasks. We address this gap with FRAME, a self-supervised video frame encoder tailored for dense video understanding. FRAME learns to predict current and future DINO patch features from past and present RGB frames, leading to spatially precise and temporally coherent representations. To our knowledge, FRAME is the first video encoder to leverage image-based models for dense prediction while outperforming them on tasks requiring fine-grained visual correspondence. As an auxiliary capability, FRAME aligns its class token with CLIP's semantic space, supporting language-driven tasks such as video classification. We evaluate FRAME across six dense prediction tasks on seven datasets, where it consistently outperforms image encoders and existing self-supervised video models. Despite its versatility, FRAME maintains a compact architecture suitable for a range of downstream applications.
- Abstract(参考訳): オブジェクト追跡やセマンティックセグメンテーションのような複雑なビデオ予測タスクは、フレーム毎に時間的に一貫性があり、空間的に密集した特徴を生成するビデオエンコーダを必要とする。
しかし、既存のアプローチでは、DINOやCLIPのような画像エンコーダは時間的認識を欠いているのに対し、VideoMAEのようなビデオモデルは、密集した予測タスクにおける画像エンコーダに比べて性能が劣っている。
このギャップを、高密度ビデオ理解に適した自己教師型ビデオフレームエンコーダFRAMEで解決する。
FRAMEは、過去と現在のRGBフレームから現在と将来のDINOパッチの特徴を予測することを学び、空間的に正確で時間的に一貫性のある表現をもたらす。
我々の知る限り、FRAMEは画像ベースのモデルを利用して高密度の予測を行う最初のビデオエンコーダである。
補助的な機能として、FRAMEはクラストークンをCLIPのセマンティックスペースと整合させ、ビデオ分類などの言語駆動タスクをサポートする。
7つのデータセット上の6つの密集予測タスクに対してFRAMEを評価し、画像エンコーダや既存の自己教師型ビデオモデルよりも一貫して優れています。
その汎用性にもかかわらず、FRAMEは様々な下流アプリケーションに適したコンパクトなアーキテクチャを維持している。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Pair-wise Layer Attention with Spatial Masking for Video Prediction [46.17429511620538]
Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
論文 参考訳(メタデータ) (2023-11-19T10:29:05Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。