論文の概要: On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
- arxiv url: http://arxiv.org/abs/2502.04363v1
- Date: Wed, 05 Feb 2025 05:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:41.436273
- Title: On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
- Title(参考訳): オンデバイスソラ:モバイルデバイス向け拡散型テキスト・ビデオ生成の実現
- Authors: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee,
- Abstract要約: 拡散型オンデバイス・テキスト・ビデオ生成のための最初の先駆的ソリューションであるOn-device Soraを提案する。
オンデバイスSoraは、スマートフォンのグレードデバイス上で効率的に動作する。
われわれはiPhone 15 ProでSoraをオンデバイスで実装し、実験により高品質な動画を制作できることが実証された。
- 参考スコア(独自算出の注目度): 3.034710104407876
- License:
- Abstract: We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.
- Abstract(参考訳): In-device Soraはディフュージョンベースのオンデバイス・テキスト・ツー・ビデオ生成のための最初の先駆的なソリューションであり、スマートフォンのグレード・デバイス上で効率的に動作する。
Open-Sora上に構築されたOn-Device Soraは,計算およびメモリ制限されたモバイルデバイス上での拡散ベースのテキスト・ビデオ生成の課題を解決するために,3つの新しいテクニックを適用している。
第一に、LPL(Linear Proportional Leap)は、効率的な跳躍に基づくアプローチにより、ビデオ拡散に必要な過度なデノイングステップを削減する。
第2に、TDTM(Temporal Dimension Token Merging)は、時間次元に沿って連続するトークンをマージすることにより、注意層における集中的なトークン処理計算を最小化する。
第三に、Concurrent Inference with Dynamic Loading (CI-DL)は、大きなモデルを小さなブロックに動的に分割し、並列モデル推論のためにメモリにロードすることで、限られたデバイスメモリの課題に効果的に対処する。
我々はiPhone 15 ProにオンデバイスSoraを実装し、実験により、ハイエンドGPU上で動作するOpen-Soraに匹敵する高品質なビデオを生成することができることを示した。
これらの結果から、オンデバイスSoraは、リソース制約のあるモバイルデバイス上での効率的な高品質のビデオ生成、アクセシビリティの拡大、ユーザのプライバシの確保、クラウドインフラストラクチャへの依存の低減、関連するコストの削減を可能にしている。
提案するオンデバイスSoraは、最先端のジェネレーティブ技術を民主化するための重要な第一歩として、コモディティモバイルおよび組み込みデバイス上でのビデオ生成機能を実現することを想定する。
コード実装はGitHubリポジトリで公開されている。
関連論文リスト
- Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation with Casual Inference [2.305850376905315]
大規模な言語モデルは、低リソースのデバイスにかなりのメモリストレージを必要とする。
本稿では,デバイス上で高速な推論を行う軽量アーキテクチャであるSPA(Side on Adaption)を提案する。
論文 参考訳(メタデータ) (2024-03-11T18:26:02Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - MobileInst: Video Instance Segmentation on the Mobile [39.144494585640714]
MobileInstは、モバイル機器上のビデオインスタンスセグメンテーションのための軽量でモバイルフレンドリーなフレームワークである。
MobileInstは、ビデオインスタンスのセグメンテーションのためのオブジェクトを追跡するために、シンプルだが効果的なカーネル再利用とカーネル関連を利用する。
我々は,MobileInstの優位性を示すため,COCOとYouTube-VISデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-30T17:59:02Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - SplitSR: An End-to-End Approach to Super-Resolution on Mobile Devices [7.72178128781302]
SplitSRと呼ばれる新しいハイブリッドアーキテクチャを用いて、デバイス上の超解像に対する最先端のレイテンシと精度を示す。
SplitSRは標準の畳み込みブロックと軽量な残留ブロックからなるハイブリッド設計である。
私たちのモデルをZoomSRというアプリでスマートフォンにデプロイし、デバイス上のディープラーニングベースのSRの最初のインスタンスをデモします。
論文 参考訳(メタデータ) (2021-01-20T06:47:41Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。