論文の概要: Edit3K: Universal Representation Learning for Video Editing Components
- arxiv url: http://arxiv.org/abs/2403.16048v1
- Date: Sun, 24 Mar 2024 07:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:55:17.198345
- Title: Edit3K: Universal Representation Learning for Video Editing Components
- Title(参考訳): Edit3K:ビデオ編集コンポーネントのためのユニバーサル表現学習
- Authors: Xin Gu, Libo Zhang, Fan Chen, Longyin Wen, Yufei Wang, Tiejian Luo, Sijie Zhu,
- Abstract要約: 本稿では,6種類の編集コンポーネントを用いた合成ビデオ編集の主流となるビデオ生成パイプラインの理解に焦点をあてる。
視覚素材(画像・映像)の既存の視覚的表現学習とは対照的に,我々は,一般的に素材に適用される編集動作・コンポーネントの視覚的表現を学習することを目的としている。
- 参考スコア(独自算出の注目度): 32.99134718524711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on understanding the predominant video creation pipeline, i.e., compositional video editing with six main types of editing components, including video effects, animation, transition, filter, sticker, and text. In contrast to existing visual representation learning of visual materials (i.e., images/videos), we aim to learn visual representations of editing actions/components that are generally applied on raw materials. We start by proposing the first large-scale dataset for editing components of video creation, which covers about $3,094$ editing components with $618,800$ videos. Each video in our dataset is rendered by various image/video materials with a single editing component, which supports atomic visual understanding of different editing components. It can also benefit several downstream tasks, e.g., editing component recommendation, editing component recognition/retrieval, etc. Existing visual representation methods perform poorly because it is difficult to disentangle the visual appearance of editing components from raw materials. To that end, we benchmark popular alternative solutions and propose a novel method that learns to attend to the appearance of editing components regardless of raw materials. Our method achieves favorable results on editing component retrieval/recognition compared to the alternative solutions. A user study is also conducted to show that our representations cluster visually similar editing components better than other alternatives. Furthermore, our learned representations used to transition recommendation tasks achieve state-of-the-art results on the AutoTransition dataset. The code and dataset will be released for academic use.
- Abstract(参考訳): 本稿では,ビデオエフェクト,アニメーション,トランジション,フィルタ,ステッカー,テキストなど,主要な6種類の編集コンポーネントを用いた合成ビデオ編集の理解に焦点を当てる。
視覚素材の既存の視覚的表現学習(画像・映像など)とは対照的に,一般的に素材に適用される編集動作・コンポーネントの視覚的表現を学習することを目的としている。
まず、ビデオ作成のコンポーネントを編集するための、最初の大規模なデータセットを提案します。
データセット内の各ビデオは、異なる編集コンポーネントの原子的視覚的理解をサポートする単一の編集コンポーネントで、様々な画像/映像素材によって描画される。
例えば、コンポーネントレコメンデーションの編集、コンポーネント認識/検索の編集などです。
既存の視覚表現法は、原材料から編集部品の視覚的外観を切り離すことが難しいため、性能が良くない。
そこで我々は,一般的な代替ソリューションをベンチマークし,原材料によらず,編集コンポーネントの出現に参画することを学ぶ新しい手法を提案する。
提案手法は,他の手法と比較して,コンポーネントの検索/認識の編集に好適な結果が得られる。
ユーザスタディでは,視覚的に類似した編集部品をクラスタリングする手法が,他の方法よりも優れていることを示す。
さらに、推奨タスクの遷移に使用した学習表現は、AutoTransitionデータセット上で最先端の結果を達成する。
コードとデータセットは学術的利用のためにリリースされる。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - VCoME: Verbal Video Composition with Multimodal Editing Effects [26.302461834158596]
編集効果を考慮した音声合成の新しい課題について紹介する。
本課題は,マルチモーダル編集効果を統合することで,コヒーレントで視覚的に魅力的なビデオを生成することである。
ビデオ合成のための編集効果を生成するために,大規模なマルチモーダルモデルを用いたVCoMEを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:59:02Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - ExpressEdit: Video Editing with Natural Language and Sketching [28.814923641627825]
マルチモダリティ$-$natural Language (NL) とスケッチは、人間が表現に使用する自然なモダリティであり、ビデオエディタをサポートするために$-$canを使用することができる。
我々は,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
論文 参考訳(メタデータ) (2024-03-26T13:34:21Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - CCEdit: Creative and Controllable Video Editing via Diffusion Models [58.34886244442608]
CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。
我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。
ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
論文 参考訳(メタデータ) (2023-09-28T15:03:44Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。