論文の概要: On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices
- arxiv url: http://arxiv.org/abs/2503.23796v1
- Date: Mon, 31 Mar 2025 07:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:15.860738
- Title: On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices
- Title(参考訳): オンデバイスソラ:モバイル端末向けトレーニングフリー拡散型テキスト・ビデオ生成の実現
- Authors: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee,
- Abstract要約: In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
- 参考スコア(独自算出の注目度): 3.034710104407876
- License:
- Abstract: We present On-device Sora, the first model training-free solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. To address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices, the proposed On-device Sora applies three novel techniques to pre-trained video generative models. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations show that it is capable of generating high-quality videos on the device, comparable to those produced by high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation on commodity mobile and embedded devices without resource-intensive re-training for model optimization (compression). The code implementation is available at a GitHub repository(https://github.com/eai-lab/On-device-Sora).
- Abstract(参考訳): In-device Soraは,スマートフォン用デバイス上で効率よく動作する拡散型オンデバイス・テキスト・ツー・ビデオ・ジェネレーションのための,最初のモデルフリー・トレーニング・ソリューションである。
計算・メモリ制限されたモバイルデバイス上での拡散ベースのテキスト・ビデオ生成の課題に対処するため,提案したOn-device Soraは,事前学習したビデオ生成モデルに3つの新しい手法を適用した。
第一に、LPL(Linear Proportional Leap)は、効率的な跳躍に基づくアプローチにより、ビデオ拡散に必要な過度なデノイングステップを削減する。
第2に、TDTM(Temporal Dimension Token Merging)は、時間次元に沿って連続するトークンをマージすることにより、注意層における集中的なトークン処理計算を最小化する。
第三に、Concurrent Inference with Dynamic Loading (CI-DL)は、大きなモデルを小さなブロックに動的に分割し、並列モデル推論のためにメモリにロードすることで、限られたデバイスメモリの課題に効果的に対処する。
我々はiPhone 15 ProにオンデバイスSoraを実装し、実験結果から、ハイエンドGPUに匹敵する高品質なビデオをデバイス上で生成できることが判明した。
これらの結果から,オンデバイス Sora は資源制約されたモバイルデバイス上で,効率よく高品質なビデオ生成を可能にすることがわかった。
提案するオンデバイス Sora は,最新の生成技術の民主化に向けた重要な第一歩として,資源集約的なモデル最適化(圧縮)を伴わずに,コモディティモバイルおよび組込みデバイス上でのビデオ生成を可能にすることを想定する。
コード実装はGitHubリポジトリ(https://github.com/eai-lab/On-device-Sora)で入手できる。
関連論文リスト
- SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - SplitSR: An End-to-End Approach to Super-Resolution on Mobile Devices [7.72178128781302]
SplitSRと呼ばれる新しいハイブリッドアーキテクチャを用いて、デバイス上の超解像に対する最先端のレイテンシと精度を示す。
SplitSRは標準の畳み込みブロックと軽量な残留ブロックからなるハイブリッド設計である。
私たちのモデルをZoomSRというアプリでスマートフォンにデプロイし、デバイス上のディープラーニングベースのSRの最初のインスタンスをデモします。
論文 参考訳(メタデータ) (2021-01-20T06:47:41Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。