論文の概要: Towards Real-Time Text2Video via CLIP-Guided, Pixel-Level Optimization
- arxiv url: http://arxiv.org/abs/2210.12826v1
- Date: Sun, 23 Oct 2022 19:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:47:19.242059
- Title: Towards Real-Time Text2Video via CLIP-Guided, Pixel-Level Optimization
- Title(参考訳): CLIP-Guided, Pixel-Level Optimization によるリアルタイム Text2Video の実現
- Authors: Peter Schaldenbrand, Zhixuan Liu and Jean Oh
- Abstract要約: 本稿では,一連の言語記述に基づくビデオ生成手法を提案する。
ビデオのフレームは順次生成され、CLIPイメージテキストエンコーダからのガイダンスによって最適化される。
提案手法は,CLIP損失を直接ピクセルレベルで計算し,近距離リアルタイムシステムに適した速度で一般コンテンツを実現する。
- 参考スコア(独自算出の注目度): 10.357474047610172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an approach to generating videos based on a series of given
language descriptions. Frames of the video are generated sequentially and
optimized by guidance from the CLIP image-text encoder; iterating through
language descriptions, weighting the current description higher than others. As
opposed to optimizing through an image generator model itself, which tends to
be computationally heavy, the proposed approach computes the CLIP loss directly
at the pixel level, achieving general content at a speed suitable for near
real-time systems. The approach can generate videos in up to 720p resolution,
variable frame-rates, and arbitrary aspect ratios at a rate of 1-2 frames per
second. Please visit our website to view videos and access our open-source
code: https://pschaldenbrand.github.io/text2video/ .
- Abstract(参考訳): 本稿では,一連の言語記述に基づくビデオ生成手法を提案する。
クリップ画像テキストエンコーダからのガイダンスにより、映像のフレームを順次生成し、最適化し、言語記述を反復し、現在の記述を他よりも重み付けする。
計算量が多い画像生成モデル自体を最適化する代わりに,提案手法では,CLIP損失を直接ピクセルレベルで計算し,近距離リアルタイムシステムに適した速度で一般コンテンツを実現する。
このアプローチでは、最大720pの解像度、可変フレームレート、任意のアスペクト比を毎秒1-2フレームの割合で生成することができる。
https://pschaldenbrand.github.io/text2video/
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Shortcut-V2V: Compression Framework for Video-to-Video Translation based
on Temporal Redundancy Reduction [32.87579824212654]
Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。
We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
論文 参考訳(メタデータ) (2023-08-15T19:50:38Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。