論文の概要: Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor
- arxiv url: http://arxiv.org/abs/2110.08580v1
- Date: Sat, 16 Oct 2021 14:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:34:30.690603
- Title: Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor
- Title(参考訳): インテリジェントビデオ編集:ビデオエディタにおけるモダンな発話顔生成アルゴリズムの導入
- Authors: Anchit Gupta, Faizan Farooq Khan, Rudrabha Mukhopadhyay, Vinay P.
Namboodiri, C. V. Jawahar
- Abstract要約: 本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
評価の結果,人為的編集の効率が向上し,映像の質が向上した。
- 参考スコア(独自算出の注目度): 44.36920938661454
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a video editor based on OpenShot with several
state-of-the-art facial video editing algorithms as added functionalities. Our
editor provides an easy-to-use interface to apply modern lip-syncing algorithms
interactively. Apart from lip-syncing, the editor also uses audio and facial
re-enactment to generate expressive talking faces. The manual control improves
the overall experience of video editing without missing out on the benefits of
modern synthetic video generation algorithms. This control enables us to
lip-sync complex dubbed movie scenes, interviews, television shows, and other
visual content. Furthermore, our editor provides features that automatically
translate lectures from spoken content, lip-sync of the professor, and
background content like slides. While doing so, we also tackle the critical
aspect of synchronizing background content with the translated speech. We
qualitatively evaluate the usefulness of the proposed editor by conducting
human evaluations. Our evaluations show a clear improvement in the efficiency
of using human editors and an improved video generation quality. We attach demo
videos with the supplementary material clearly explaining the tool and also
showcasing multiple results.
- Abstract(参考訳): 本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
唇の同期は別として、このエディターは音声と顔の再現を使って表現力のあるしゃべり顔を生成する。
手動制御は、現代の合成ビデオ生成アルゴリズムの利点を欠くことなく、ビデオ編集の全体的な体験を改善する。
この制御により、映画シーン、インタビュー、テレビ番組、その他の視覚的コンテンツをリップシンクできる。
さらに,音声コンテンツから講義を自動的に翻訳する機能,教授の唇の同期,スライドなどの背景コンテンツも提供する。
それと同時に、背景コンテンツと翻訳音声の同期という重要な側面にも取り組みます。
提案する編集者の有用性を人間による評価によって定量的に評価する。
評価の結果, 編集作業の効率が向上し, 映像生成品質が向上した。
ツールを明確に説明した補足資料をデモビデオに添付し,複数の結果を示した。
関連論文リスト
- DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - ExpressEdit: Video Editing with Natural Language and Sketching [28.814923641627825]
マルチモダリティ$-$natural Language (NL) とスケッチは、人間が表現に使用する自然なモダリティであり、ビデオエディタをサポートするために$-$canを使用することができる。
我々は,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
論文 参考訳(メタデータ) (2024-03-26T13:34:21Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Iterative Text-based Editing of Talking-heads Using Neural Retargeting [42.964779538134714]
本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。
各イテレーションでは、ユーザーは音声の単語を編集し、アーティファクトを減らし、パフォーマンスの非言語的な側面を操作するために必要な口の動きをさらに洗練することができる。
我々のツールは、ターゲットのアクタービデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成する。
論文 参考訳(メタデータ) (2020-11-21T01:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。