論文の概要: On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
- arxiv url: http://arxiv.org/abs/2502.04363v1
- Date: Wed, 05 Feb 2025 05:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 18:29:32.828608
- Title: On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
- Title(参考訳): オンデバイスソラ:モバイルデバイス向け拡散型テキスト・ビデオ生成の実現
- Authors: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee,
- Abstract要約: 拡散型オンデバイス・テキスト・ビデオ生成のための最初の先駆的ソリューションであるOn-device Soraを提案する。
オンデバイスSoraは、スマートフォンのグレードデバイス上で効率的に動作する。
われわれはiPhone 15 ProでSoraをオンデバイスで実装し、実験により高品質な動画を制作できることが実証された。
- 参考スコア(独自算出の注目度): 3.034710104407876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.
- Abstract(参考訳): In-device Soraはディフュージョンベースのオンデバイス・テキスト・ツー・ビデオ生成のための最初の先駆的なソリューションであり、スマートフォンのグレード・デバイス上で効率的に動作する。
Open-Sora上に構築されたOn-Device Soraは,計算およびメモリ制限されたモバイルデバイス上での拡散ベースのテキスト・ビデオ生成の課題を解決するために,3つの新しいテクニックを適用している。
第一に、LPL(Linear Proportional Leap)は、効率的な跳躍に基づくアプローチにより、ビデオ拡散に必要な過度なデノイングステップを削減する。
第2に、TDTM(Temporal Dimension Token Merging)は、時間次元に沿って連続するトークンをマージすることにより、注意層における集中的なトークン処理計算を最小化する。
第三に、Concurrent Inference with Dynamic Loading (CI-DL)は、大きなモデルを小さなブロックに動的に分割し、並列モデル推論のためにメモリにロードすることで、限られたデバイスメモリの課題に効果的に対処する。
我々はiPhone 15 ProにオンデバイスSoraを実装し、実験により、ハイエンドGPU上で動作するOpen-Soraに匹敵する高品質なビデオを生成することができることを示した。
これらの結果から、オンデバイスSoraは、リソース制約のあるモバイルデバイス上での効率的な高品質のビデオ生成、アクセシビリティの拡大、ユーザのプライバシの確保、クラウドインフラストラクチャへの依存の低減、関連するコストの削減を可能にしている。
提案するオンデバイスSoraは、最先端のジェネレーティブ技術を民主化するための重要な第一歩として、コモディティモバイルおよび組み込みデバイス上でのビデオ生成機能を実現することを想定する。
コード実装はGitHubリポジトリで公開されている。
関連論文リスト
- Scaling On-Device GPU Inference for Large Generative Models [5.938112995772544]
ML Driftは、最先端のGPUアクセラレーション推論エンジンの機能を拡張する最適化されたフレームワークである。
当社のGPU加速型ML/AI推論エンジンは,既存のオープンソースGPU推論エンジンと比較して,桁違いの性能向上を実現している。
論文 参考訳(メタデータ) (2025-05-01T00:44:13Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [3.034710104407876]
In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-03-31T07:19:09Z) - SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation with Casual Inference [2.305850376905315]
大規模な言語モデルは、低リソースのデバイスにかなりのメモリストレージを必要とする。
本稿では,デバイス上で高速な推論を行う軽量アーキテクチャであるSPA(Side on Adaption)を提案する。
論文 参考訳(メタデータ) (2024-03-11T18:26:02Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - SplitSR: An End-to-End Approach to Super-Resolution on Mobile Devices [7.72178128781302]
SplitSRと呼ばれる新しいハイブリッドアーキテクチャを用いて、デバイス上の超解像に対する最先端のレイテンシと精度を示す。
SplitSRは標準の畳み込みブロックと軽量な残留ブロックからなるハイブリッド設計である。
私たちのモデルをZoomSRというアプリでスマートフォンにデプロイし、デバイス上のディープラーニングベースのSRの最初のインスタンスをデモします。
論文 参考訳(メタデータ) (2021-01-20T06:47:41Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。