論文の概要: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
- arxiv url: http://arxiv.org/abs/2508.07312v1
- Date: Sun, 10 Aug 2025 12:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.805951
- Title: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
- Title(参考訳): MobileViCLIP: モバイルデバイスのための効率的なビデオテキストモデル
- Authors: Min Yang, Zihan Jia, Zhilin Dai, Sheng Guo, Limin Wang,
- Abstract要約: 本稿では,ゼロショット分類と検索機能を備えたモバイル端末上での効率的なビデオテキストモデルを提案する。
モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍高速です。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9% 向上した。
- 参考スコア(独自算出の注目度): 24.114050057019078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient lightweight neural networks are with increasing attention due to their faster reasoning speed and easier deployment on mobile devices. However, existing video pre-trained models still focus on the common ViT architecture with high latency, and few works attempt to build efficient architecture on mobile devices. This paper bridges this gap by introducing temporal structural reparameterization into an efficient image-text model and training it on a large-scale high-quality video-text dataset, resulting in an efficient video-text model that can run on mobile devices with strong zero-shot classification and retrieval capabilities, termed as MobileViCLIP. In particular, in terms of inference speed on mobile devices, our MobileViCLIP-Small is 55.4x times faster than InternVideo2-L14 and 6.7x faster than InternVideo2-S14. In terms of zero-shot retrieval performance, our MobileViCLIP-Small obtains similar performance as InternVideo2-L14 and obtains 6.9\% better than InternVideo2-S14 on MSR-VTT. The code is available at https://github.com/MCG-NJU/MobileViCLIP.
- Abstract(参考訳): 高速な推論速度とモバイルデバイスへの展開が容易なため、効率的な軽量ニューラルネットワークが注目されている。
しかし、既存のビデオ事前トレーニングモデルは、高いレイテンシで共通のViTアーキテクチャにフォーカスしており、モバイルデバイス上で効率的なアーキテクチャを構築しようとする作業はほとんどない。
本稿では,効率的な画像テキストモデルに時間的構造的パラメータ化を導入し,大規模な高品質なビデオテキストデータセット上でトレーニングすることにより,モバイルViCLIPと呼ばれる強力なゼロショット分類と検索機能を備えたモバイルデバイス上での効率的なビデオテキストモデルを実現することにより,このギャップを埋める。
特に、モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍速い。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9 % 向上した。
コードはhttps://github.com/MCG-NJU/MobileViCLIPで入手できる。
関連論文リスト
- Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device [90.46496321553843]
我々は,モバイル端末に統一されたマルチモーダルインテリジェンスを実現する,コンパクトな視覚言語拡散モデルであるMobile-Oを提案する。
そのコアモジュールであるモバイルコンディショニング・プロジェクタ(MCP)は、奥行き分離可能な畳み込みと階層的アライメントを用いた拡散生成器で視覚言語の特徴を融合させる。
iPhone上では512x512イメージあたり3秒でしか動作しないMobile-Oは、エッジデバイス上でリアルタイムに統一されたマルチモーダル理解と生成を行うための最初の実践的なフレームワークを確立している。
論文 参考訳(メタデータ) (2026-02-23T18:59:58Z) - MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices [42.00270347221752]
モバイル端末上でのリアルタイム画像・ビデオ生成のための270M軽量拡散モデルであるMobileI2Vを提案する。
I2Vサンプリング工程を20回以上から2回まで圧縮する時間段階蒸留方式を設計した。
MobileI2Vは、モバイル端末で720pの高速動画生成を可能にする。
論文 参考訳(メタデータ) (2025-11-26T15:09:02Z) - Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices [36.637983575162075]
本稿では,広く使用されているビデオVAEをモバイルデバイスに効率的に転送する,低コストなソリューションを提案する。
本手法により,モバイル端末上でのリアルタイム720pビデオVAEデコーディングが可能となった。
Turbo-VAEDはFPSの2.9倍のスピードアップを実現し、iPhone 16 Proの再現性も向上した。
論文 参考訳(メタデータ) (2025-08-12T17:59:46Z) - Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。
我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文 参考訳(メタデータ) (2025-03-24T17:59:07Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。