論文の概要: CVPR 2023 Text Guided Video Editing Competition
- arxiv url: http://arxiv.org/abs/2310.16003v1
- Date: Tue, 24 Oct 2023 16:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:40:54.839192
- Title: CVPR 2023 Text Guided Video Editing Competition
- Title(参考訳): CVPR 2023 テキストガイドビデオ編集コンペティション
- Authors: Jay Zhangjie Wu, Xiuyu Li, Difei Gao, Zhen Dong, Jinbin Bai, Aishani
Singh, Xiaoyu Xiang, Youzeng Li, Zuwei Huang, Yuanxi Sun, Rui He, Feng Hu,
Junhua Hu, Hai Huang, Hanyu Zhu, Xu Cheng, Jie Tang, Mike Zheng Shou, Kurt
Keutzer, Forrest Iandola
- Abstract要約: テキスト誘導ビデオ編集(TGVE)のための新しいデータセットを提案する。
TGVEデータセットのモデルを評価するために,CVPRでコンペティションを実施しています。
本稿では,競争の振り返りと優勝方法について述べる。
- 参考スコア(独自算出の注目度): 42.21846535595496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans watch more than a billion hours of video per day. Most of this video
was edited manually, which is a tedious process. However, AI-enabled
video-generation and video-editing is on the rise. Building on text-to-image
models like Stable Diffusion and Imagen, generative AI has improved
dramatically on video tasks. But it's hard to evaluate progress in these video
tasks because there is no standard benchmark. So, we propose a new dataset for
text-guided video editing (TGVE), and we run a competition at CVPR to evaluate
models on our TGVE dataset. In this paper we present a retrospective on the
competition and describe the winning method. The competition dataset is
available at https://sites.google.com/view/loveucvpr23/track4.
- Abstract(参考訳): 人間は一日に10億時間以上のビデオを視聴する。
このビデオのほとんどは手作業で編集されたもので、面倒な作業です。
しかし、AI対応のビデオ生成とビデオ編集が増えている。
安定拡散やimagenのようなテキストから画像へのモデルに基づいて、生成aiはビデオタスクで劇的に改善されている。
しかし、標準ベンチマークがないため、これらのビデオタスクの進捗を評価するのは難しいです。
そこで本研究では,テキスト誘導ビデオ編集(TGVE)のための新しいデータセットを提案する。
本稿では,コンペティションに関するふりかえりを行い,優勝方法について述べる。
競合データセットはhttps://sites.google.com/view/loveucvpr23/track4で入手できる。
関連論文リスト
- Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation [38.84663997781797]
我々は、37.6K以上の合成ビデオで人為的なマルチアスペクトスコアを含む最初の大規模データセットであるVideoFeedbackをリリースした。
実験では、VideoScoreと人間の間のSpearman相関が、VideoFeedback-testで77.1に達することが示され、以前のベストメトリクスを約50ポイント上回った。
論文 参考訳(メタデータ) (2024-06-21T15:43:46Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Learning to Cut by Watching Movies [114.57935905189416]
本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
論文 参考訳(メタデータ) (2021-08-09T18:37:17Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。