論文の概要: Promptus: Can Prompts Streaming Replace Video Streaming with Stable Diffusion
- arxiv url: http://arxiv.org/abs/2405.20032v1
- Date: Thu, 30 May 2024 13:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:18:37.766615
- Title: Promptus: Can Prompts Streaming Replace Video Streaming with Stable Diffusion
- Title(参考訳): Promptus: 安定した拡散でビデオストリーミングをリプレースできる
- Authors: Jiangkai Wu, Liming Liu, Yunpeng Tan, Junlin Hao, Xinggong Zhang,
- Abstract要約: 本稿では,Stable Diffusionによるビデオコンテンツの代わりにプロンプトをストリーミングするシステムであるPromptusを提案する。
その結果, Promptus は VAE と H.265 と比較して知覚品質を0.111 と 0.092 (LPIPS) で向上させることができることがわかった。
われわれの研究は、シャノン限界を超えた効率的なビデオ通信のための新しいパラダイムを開拓する。
- 参考スコア(独自算出の注目度): 6.093768205619601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the exponential growth of video traffic, traditional video streaming systems are approaching their limits in compression efficiency and communication capacity. To further reduce bitrate while maintaining quality, we propose Promptus, a disruptive novel system that streaming prompts instead of video content with Stable Diffusion, which converts video frames into a series of "prompts" for delivery. To ensure pixel alignment, a gradient descent-based prompt fitting framework is proposed. To achieve adaptive bitrate for prompts, a low-rank decomposition-based bitrate control algorithm is introduced. For inter-frame compression of prompts, a temporal smoothing-based prompt interpolation algorithm is proposed. Evaluations across various video domains and real network traces demonstrate Promptus can enhance the perceptual quality by 0.111 and 0.092 (in LPIPS) compared to VAE and H.265, respectively, and decreases the ratio of severely distorted frames by 89.3% and 91.7%. Moreover, Promptus achieves real-time video generation from prompts at over 150 FPS. To the best of our knowledge, Promptus is the first attempt to replace video codecs with prompt inversion and the first to use prompt streaming instead of video streaming. Our work opens up a new paradigm for efficient video communication beyond the Shannon limit.
- Abstract(参考訳): ビデオトラフィックの指数的な増加に伴い、従来のビデオストリーミングシステムは圧縮効率と通信能力の限界に近づいている。
品質を維持しつつビットレートをさらに削減するため,ビデオフレームを一連の「プロンプット」に変換して配信する「安定拡散」で映像コンテンツをストリーミングする「プロンプタス」を提案する。
画素アライメントを確保するため、勾配降下に基づくプロンプトフィッティングフレームワークを提案する。
プロンプトに対する適応ビットレートを実現するために,低ランク分解に基づくビットレート制御アルゴリズムを導入する。
プロンプトのフレーム間圧縮のために,時間スムージングに基づくプロンプト補間アルゴリズムを提案する。
様々なビデオドメインと実ネットワークトレースで評価した結果、PromptusはVAEとH.265と比較して知覚品質を0.111と0.092(LPIPS)向上させ、重く歪んだフレームの比率を89.3%と91.7%に下げることを示した。
さらに、Promptusは150FPS以上のプロンプトからリアルタイムのビデオ生成を実現する。
われわれの知る限りでは、Promptusはビデオコーデックを即時インバージョンで置き換える最初の試みであり、ビデオストリーミングの代わりに即時ストリーミングを使う最初の試みだ。
われわれの研究は、シャノン限界を超えた効率的なビデオ通信のための新しいパラダイムを開拓する。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification [12.322783570127756]
動画をSportやMusic Videoといった別のカテゴリーに分類することは、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要である。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリーム復号化の必要性を解消する手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:35:13Z) - Accelerated Event-Based Feature Detection and Compression for
Surveillance Video Systems [1.5390526524075634]
スパース圧縮表現において時間的冗長性を伝達する新しいシステムを提案する。
我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。
我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。
論文 参考訳(メタデータ) (2023-12-13T15:30:29Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - FREGAN : an application of generative adversarial networks in enhancing
the frame rate of videos [1.1688030627514534]
FREGAN(Frame Rate Enhancement Generative Adversarial Network)モデルが提案されている。
提案手法の有効性を標準データセットで検証した。
実験結果は,提案モデルがピーク信号対雑音比(PSNR)が34.94で,構造類似度指数(SSIM)が0.95であることを示している。
論文 参考訳(メタデータ) (2021-11-01T17:19:00Z) - Prediction-assistant Frame Super-Resolution for Video Streaming [40.60863957681011]
ロスフレームによる映像品質の向上を2つの場面で提案します。
最初のケースでは、小さいが効果的なビデオフレーム予測ネットワークを提案する。
第2のケースでは,現在のフレームと以前のフレームを関連付けるビデオ予測ネットワークを改善し,高品質な画像を復元する。
論文 参考訳(メタデータ) (2021-03-17T06:05:27Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。