論文の概要: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
- arxiv url: http://arxiv.org/abs/2508.07312v1
- Date: Sun, 10 Aug 2025 12:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.805951
- Title: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
- Title(参考訳): MobileViCLIP: モバイルデバイスのための効率的なビデオテキストモデル
- Authors: Min Yang, Zihan Jia, Zhilin Dai, Sheng Guo, Limin Wang,
- Abstract要約: 本稿では,ゼロショット分類と検索機能を備えたモバイル端末上での効率的なビデオテキストモデルを提案する。
モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍高速です。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9% 向上した。
- 参考スコア(独自算出の注目度): 24.114050057019078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient lightweight neural networks are with increasing attention due to their faster reasoning speed and easier deployment on mobile devices. However, existing video pre-trained models still focus on the common ViT architecture with high latency, and few works attempt to build efficient architecture on mobile devices. This paper bridges this gap by introducing temporal structural reparameterization into an efficient image-text model and training it on a large-scale high-quality video-text dataset, resulting in an efficient video-text model that can run on mobile devices with strong zero-shot classification and retrieval capabilities, termed as MobileViCLIP. In particular, in terms of inference speed on mobile devices, our MobileViCLIP-Small is 55.4x times faster than InternVideo2-L14 and 6.7x faster than InternVideo2-S14. In terms of zero-shot retrieval performance, our MobileViCLIP-Small obtains similar performance as InternVideo2-L14 and obtains 6.9\% better than InternVideo2-S14 on MSR-VTT. The code is available at https://github.com/MCG-NJU/MobileViCLIP.
- Abstract(参考訳): 高速な推論速度とモバイルデバイスへの展開が容易なため、効率的な軽量ニューラルネットワークが注目されている。
しかし、既存のビデオ事前トレーニングモデルは、高いレイテンシで共通のViTアーキテクチャにフォーカスしており、モバイルデバイス上で効率的なアーキテクチャを構築しようとする作業はほとんどない。
本稿では,効率的な画像テキストモデルに時間的構造的パラメータ化を導入し,大規模な高品質なビデオテキストデータセット上でトレーニングすることにより,モバイルViCLIPと呼ばれる強力なゼロショット分類と検索機能を備えたモバイルデバイス上での効率的なビデオテキストモデルを実現することにより,このギャップを埋める。
特に、モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍速い。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9 % 向上した。
コードはhttps://github.com/MCG-NJU/MobileViCLIPで入手できる。
関連論文リスト
- Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。