論文の概要: Learning to Cut by Watching Movies
- arxiv url: http://arxiv.org/abs/2108.04294v1
- Date: Mon, 9 Aug 2021 18:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 01:49:18.419411
- Title: Learning to Cut by Watching Movies
- Title(参考訳): 映画を見てカットを学ぶ
- Authors: Alejandro Pardo, Fabian Caba Heilbron, Juan Le\'on Alc\'azar, Ali
Thabet, Bernard Ghanem
- Abstract要約: 本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
- 参考スコア(独自算出の注目度): 114.57935905189416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video content creation keeps growing at an incredible pace; yet, creating
engaging stories remains challenging and requires non-trivial video editing
expertise. Many video editing components are astonishingly hard to automate
primarily due to the lack of raw video materials. This paper focuses on a new
task for computational video editing, namely the task of raking cut
plausibility. Our key idea is to leverage content that has already been edited
to learn fine-grained audiovisual patterns that trigger cuts. To do this, we
first collected a data source of more than 10K videos, from which we extract
more than 255K cuts. We devise a model that learns to discriminate between real
and artificial cuts via contrastive learning. We set up a new task and a set of
baselines to benchmark video cut generation. We observe that our proposed model
outperforms the baselines by large margins. To demonstrate our model in
real-world applications, we conduct human studies in a collection of unedited
videos. The results show that our model does a better job at cutting than
random and alternative baselines.
- Abstract(参考訳): ビデオコンテンツの制作は驚異的なペースで成長を続けているが、魅力的なストーリーを作るのはまだ難しい。
多くのビデオ編集コンポーネントは、主に生のビデオ素材がないため、驚くほど自動化が難しい。
本稿では,コンピュータ映像編集における新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちの重要なアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオビジュアルパターンを学ぶことです。
そのために、まず10K以上のビデオのデータソースを収集し、そこから255K以上のカットを抽出しました。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
ビデオカット生成をベンチマークするための新しいタスクと一連のベースラインを設定しました。
我々は,提案モデルがベースラインを大きなマージンで上回っていることを観測する。
実世界の応用でモデルを実証するために、未編集ビデオのコレクションで人間の研究を行う。
その結果,本モデルでは,ランダムなベースラインや代替ベースラインよりもカットが優れていることがわかった。
関連論文リスト
- V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data [20.23001319056999]
拡散に基づく生成モデルは、最近顕著な画像編集機能とビデオ編集機能を示している。
本研究は,動画における一貫した局所属性除去のケーススタディとして,映像中の眼鏡の一貫性とアイデンティティ保護の除去に焦点をあてる。
データ不完全にもかかわらず、当社のモデルは元のビデオコンテンツを保存しながら、所望の編集を一貫して行うことができることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:14:43Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - MovieCuts: A New Dataset and Benchmark for Cut Type Recognition [114.57935905189416]
本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。
10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセット、MovieCutsを構築した。
我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2021-09-12T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。