論文の概要: Looking Backward: Streaming Video-to-Video Translation with Feature Banks
- arxiv url: http://arxiv.org/abs/2405.15757v2
- Date: Wed, 11 Sep 2024 03:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:57:55.887868
- Title: Looking Backward: Streaming Video-to-Video Translation with Feature Banks
- Title(参考訳): 振り返る:フィーチャーバンクでビデオからビデオへの翻訳をストリーミング
- Authors: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu,
- Abstract要約: StreamV2Vは、ユーザプロンプトによるリアルタイムストリーミングビデオ変換(V2V)を実現する拡散モデルである。
1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。
- 参考スコア(独自算出の注目度): 65.46145157488344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.
- Abstract(参考訳): 本稿では,ユーザプロンプトによるリアルタイムストリーミングビデオ変換を実現する拡散モデルStreamV2Vを紹介する。
バッチを使用して限られたフレームを処理する従来のV2V手法とは異なり、我々は無制限フレームをサポートするために、ストリーミング形式でフレームを処理することを選択した。
StreamV2Vの中心には、現在と過去を関連づけた後ろ向きの原理がある。
これは、過去のフレームから情報をアーカイブするフィーチャーバンクを維持することで実現される。
入ってくるフレームに対して、StreamV2Vは自己アテンションを拡張して、バンクされたキーと値を含み、同様の過去の機能を出力に直接フューズする。
機能バンクは、格納された機能と新機能をマージすることで継続的に更新される。
StreamV2Vはその適応性と効率性を強調し、微調整なしで画像拡散モデルとシームレスに統合する。
1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。
定量的メトリクスとユーザスタディは、StreamV2Vの時間的一貫性を維持する異常な能力を確認している。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video
Synthesis [66.2611385251157]
拡散モデルはイメージ・ツー・イメージ(I2I)合成を変換し、現在はビデオに浸透している。
本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-29T16:57:12Z) - Shortcut-V2V: Compression Framework for Video-to-Video Translation based
on Temporal Redundancy Reduction [32.87579824212654]
Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。
We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
論文 参考訳(メタデータ) (2023-08-15T19:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。