論文の概要: RAIN: Real-time Animation of Infinite Video Stream
- arxiv url: http://arxiv.org/abs/2412.19489v1
- Date: Fri, 27 Dec 2024 07:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:12.165959
- Title: RAIN: Real-time Animation of Infinite Video Stream
- Title(参考訳): RAIN: 無限のビデオストリームのリアルタイムアニメーション
- Authors: Zhilei Shu, Ruili Feng, Yang Cao, Zheng-Jun Zha,
- Abstract要約: RAINは、低レイテンシで、無限のビデオストリームをリアルタイムでアニメーションできるパイプラインソリューションである。
RAINは、より短いレイテンシと高速な速度でビデオフレームを生成すると同時に、拡張されたビデオストリームに対する長距離の注意を維持する。
RAINは、競合他社よりもはるかに優れた品質、正確性、一貫性で、リアルタイムにキャラクタをアニメーションすることができる。
- 参考スコア(独自算出の注目度): 52.97171098038888
- License:
- Abstract: Live animation has gained immense popularity for enhancing online engagement, yet achieving high-quality, real-time, and stable animation with diffusion models remains challenging, especially on consumer-grade GPUs. Existing methods struggle with generating long, consistent video streams efficiently, often being limited by latency issues and degraded visual quality over extended periods. In this paper, we introduce RAIN, a pipeline solution capable of animating infinite video streams in real-time with low latency using a single RTX 4090 GPU. The core idea of RAIN is to efficiently compute frame-token attention across different noise levels and long time-intervals while simultaneously denoising a significantly larger number of frame-tokens than previous stream-based methods. This design allows RAIN to generate video frames with much shorter latency and faster speed, while maintaining long-range attention over extended video streams, resulting in enhanced continuity and consistency. Consequently, a Stable Diffusion model fine-tuned with RAIN in just a few epochs can produce video streams in real-time and low latency without much compromise in quality or consistency, up to infinite long. Despite its advanced capabilities, the RAIN only introduces a few additional 1D attention blocks, imposing minimal additional burden. Experiments in benchmark datasets and generating super-long videos demonstrating that RAIN can animate characters in real-time with much better quality, accuracy, and consistency than competitors while costing less latency. All code and models will be made publicly available.
- Abstract(参考訳): ライブアニメーションはオンラインエンゲージメントを高めることで大きな人気を集めているが、特にコンシューマグレードのGPUにおいて、拡散モデルによる高品質、リアルタイム、安定したアニメーションを実現することは依然として困難である。
既存の手法では、長い一貫したビデオストリームを効率的に生成するのに苦労しており、レイテンシの問題や視覚的品質の低下によって制限されることが多い。
本稿では,RTX 4090 GPUを用いて,低レイテンシでリアルタイムに無限のビデオストリームをアニメーションできるパイプラインソリューションであるRAINを紹介する。
RAINの中核となる考え方は、異なるノイズレベルと長い時間間隔にまたがってフレームトークンの注意を効率的に計算し、同時に従来のストリームベース手法よりもはるかに多くのフレームトークンをデノベートすることである。
この設計により、RAINはより短いレイテンシで高速なビデオフレームを生成すると同時に、拡張されたビデオストリームに対する長時間の注意を保ち、連続性と一貫性を向上することができる。
その結果、数エポックでRAINで微調整された安定拡散モデルは、品質や一貫性を損なうことなく、最大で無限の長い時間で、リアルタイムで低レイテンシでビデオストリームを生成することができる。
その高度な機能にもかかわらず、RAINはいくつかの追加の1Dアテンションブロックのみを導入し、最小限の追加負担を課している。
ベンチマークデータセットの実験と超長いビデオの生成により、RAINは、レイテンシを抑えながら、競合製品よりもはるかに優れた品質、正確性、一貫性で文字をリアルタイムでアニメーションできることを示した。
すべてのコードとモデルは公開されます。
関連論文リスト
- RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining [14.025870185802463]
我々は,シーケンスレベルのローカル情報をよりよくキャプチャするための,新しいヒルベルト機構を備えた改良されたSSMベースのビデオデライニングネットワーク(RainMamba)を提案する。
また,提案したネットワークのパッチレベルの自己相似学習能力を高めるために,差分誘導動的コントラスト学習戦略を導入する。
論文 参考訳(メタデータ) (2024-07-31T17:48:22Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Partial Rewriting for Multi-Stage ASR [14.642804773149713]
最終的な結果を変更することなく,ストリーミング結果の品質を約10%向上させる。
このアプローチでは、追加のレイテンシを導入せず、フリッカリングを削減します。
また軽量で、モデルの再トレーニングを必要としないため、多段階アーキテクチャにも適用可能である。
論文 参考訳(メタデータ) (2023-12-08T00:31:43Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - BONES: Near-Optimal Neural-Enhanced Video Streaming [9.4673637872926]
Neural-Enhanced Streaming(NES)は、この新しいアプローチをビデオストリーミングに取り入れることで、ユーザーは低品質のビデオセグメントをダウンロードし、ビデオストリームの再生に違反することなく高品質なコンテンツを取得することができる。
本稿では,ユーザ体験の質(QoE)を最大化するために,ネットワークと計算資源を共同で管理するNES制御アルゴリズムBONESを紹介する。
論文 参考訳(メタデータ) (2023-10-15T19:08:18Z) - FastLLVE: Real-Time Low-Light Video Enhancement with Intensity-Aware
Lookup Table [21.77469059123589]
我々は,フレーム間輝度の一貫性を効果的に維持するために,FastLLVEという名前の効率的なパイプラインを提案する。
FastLLVEは1080pのビデオを$mathit50+$ Frames Per Second (FPS)で処理できる。
論文 参考訳(メタデータ) (2023-08-13T11:54:14Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。