論文の概要: AutoTransition: Learning to Recommend Video Transition Effects
- arxiv url: http://arxiv.org/abs/2207.13479v1
- Date: Wed, 27 Jul 2022 12:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:58:55.229583
- Title: AutoTransition: Learning to Recommend Video Transition Effects
- Title(参考訳): AutoTransition:ビデオ遷移効果を推奨する学習
- Authors: Yaojie Shen, Libo Zhang, Kai Xu, Xiaojie Jin
- Abstract要約: 自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.384463765702417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video transition effects are widely used in video editing to connect shots
for creating cohesive and visually appealing videos. However, it is challenging
for non-professionals to choose best transitions due to the lack of
cinematographic knowledge and design skills. In this paper, we present the
premier work on performing automatic video transitions recommendation (VTR):
given a sequence of raw video shots and companion audio, recommend video
transitions for each pair of neighboring shots. To solve this task, we collect
a large-scale video transition dataset using publicly available video templates
on editing softwares. Then we formulate VTR as a multi-modal retrieval problem
from vision/audio to video transitions and propose a novel multi-modal matching
framework which consists of two parts. First we learn the embedding of video
transitions through a video transition classification task. Then we propose a
model to learn the matching correspondence from vision/audio inputs to video
transitions. Specifically, the proposed model employs a multi-modal transformer
to fuse vision and audio information, as well as capture the context cues in
sequential transition outputs. Through both quantitative and qualitative
experiments, we clearly demonstrate the effectiveness of our method. Notably,
in the comprehensive user study, our method receives comparable scores compared
with professional editors while improving the video editing efficiency by
\textbf{300\scalebox{1.25}{$\times$}}. We hope our work serves to inspire other
researchers to work on this new task. The dataset and codes are public at
\url{https://github.com/acherstyx/AutoTransition}.
- Abstract(参考訳): ビデオの遷移効果は、コヒーシブで視覚的に魅力的なビデオを作成するためにショットを繋ぐために、ビデオ編集で広く使われている。
しかし、映画知識やデザインスキルの欠如により、非専門家が最高のトランジションを選択することは困難である。
本稿では,生の映像とコンパニオンオーディオのシーケンスが与えられた場合,隣り合う映像ごとにビデオ遷移を推奨する,vtr(automatic video transitions recommendation)を行うための最重要課題について述べる。
この課題を解決するために,公開ビデオテンプレートを用いた大規模ビデオトランジションデータセットを編集ソフトウェア上で収集する。
次に,vtrを視覚/聴覚から映像遷移へのマルチモーダル検索問題として定式化し,二つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
まず,ビデオ遷移分類タスクを通じて映像遷移の埋め込みを学習する。
そこで,視覚・聴覚入力から映像遷移への対応を学習するモデルを提案する。
具体的には,マルチモーダルトランスフォーマを使用して視覚情報と音声情報を融合し,逐次遷移出力におけるコンテキストキューをキャプチャする。
定量的および定性的な実験により,本手法の有効性を明らかにした。
特に包括的ユーザ調査において,本手法はプロの編集者と比較して同等のスコアを得られると同時に,ビデオ編集効率を \textbf{300\scalebox{1.25}{$\times$}} で向上させる。
私たちの研究が、他の研究者にこの新しい課題に取り組むよう促すことを願っています。
データセットとコードは \url{https://github.com/acherstyx/AutoTransition} で公開されている。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Consistent Video-to-Video Transfer Using Synthetic Dataset [12.323784941805519]
テキストベースのビデオ・ビデオ編集のための,新しい,効率的なアプローチを提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
Instruct Pix2Pix's image transfer by editing instruction, we adapt this paradigm to the video domain。
論文 参考訳(メタデータ) (2023-11-01T01:20:12Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。