論文の概要: MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors
- arxiv url: http://arxiv.org/abs/2509.17084v2
- Date: Thu, 25 Sep 2025 15:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.090093
- Title: MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors
- Title(参考訳): MoCLIP-Lite:CLIPとモーションベクトルを融合した効率的なビデオ認識
- Authors: Binhua Huang, Ni Wang, Arjun Pakrashi, Soumyabrata Dev,
- Abstract要約: MoCLIP-Liteは、効率的なビデオ認識のためのシンプルだが強力な2ストリーム遅延融合フレームワークである。
提案手法は,凍結したCLIP画像エンコーダと,生のMVで訓練された軽量で教師付きネットワークの機能を組み合わせたものである。
提案手法は89.2%のTop-1精度を実現し,強いゼロショット(65.0%)とMVのみ(66.5%)のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 5.22588980914304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action recognition is a fundamental task in computer vision, but state-of-the-art models are often computationally expensive and rely on extensive video pre-training. In parallel, large-scale vision-language models like Contrastive Language-Image Pre-training (CLIP) offer powerful zero-shot capabilities on static images, while motion vectors (MV) provide highly efficient temporal information directly from compressed video streams. To synergize the strengths of these paradigms, we propose MoCLIP-Lite, a simple yet powerful two-stream late fusion framework for efficient video recognition. Our approach combines features from a frozen CLIP image encoder with features from a lightweight, supervised network trained on raw MV. During fusion, both backbones are frozen, and only a tiny Multi-Layer Perceptron (MLP) head is trained, ensuring extreme efficiency. Through comprehensive experiments on the UCF101 dataset, our method achieves a remarkable 89.2% Top-1 accuracy, significantly outperforming strong zero-shot (65.0%) and MV-only (66.5%) baselines. Our work provides a new, highly efficient baseline for video understanding that effectively bridges the gap between large static models and dynamic, low-cost motion cues. Our code and models are available at https://github.com/microa/MoCLIP-Lite.
- Abstract(参考訳): ビデオ行動認識はコンピュータビジョンの基本的な課題であるが、最先端のモデルは計算に高価であり、広範なビデオ事前学習に依存していることが多い。
対照的に、Contrastive Language-Image Pre-Training (CLIP)のような大規模視覚言語モデルは静的画像に強力なゼロショット機能を提供する一方、モーションベクトル(MV)は圧縮されたビデオストリームから直接高効率な時間情報を提供する。
これらのパラダイムの強みを相乗化するために,効率的なビデオ認識のためのシンプルだがパワフルな2ストリームレイトフュージョンフレームワークであるMoCLIP-Liteを提案する。
提案手法は,凍結したCLIP画像エンコーダと,生のMVで訓練された軽量で教師付きネットワークの機能を組み合わせたものである。
核融合中、両方のバックボーンは凍結され、最小限のMulti-Layer Perceptron(MLP)ヘッドのみが訓練され、極端な効率が保証される。
UCF101データセットの総合的な実験により、89.2%のTop-1精度を実現し、強いゼロショット(65.0%)とMVのみ(66.5%)のベースラインを著しく上回った。
我々の研究は、大規模な静的モデルと動的で低コストなモーションキューのギャップを効果的に埋める、ビデオ理解のための、新しい、非常に効率的なベースラインを提供する。
私たちのコードとモデルはhttps://github.com/microa/MoCLIP-Lite.comで公開されています。
関連論文リスト
- Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。
TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。