論文の概要: Iterative Text-based Editing of Talking-heads Using Neural Retargeting
- arxiv url: http://arxiv.org/abs/2011.10688v1
- Date: Sat, 21 Nov 2020 01:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:42:15.894384
- Title: Iterative Text-based Editing of Talking-heads Using Neural Retargeting
- Title(参考訳): ニューラルリターゲティングを用いた対話ヘッドの反復的テキスト編集
- Authors: Xinwei Yao, Ohad Fried, Kayvon Fatahalian, Maneesh Agrawala
- Abstract要約: 本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。
各イテレーションでは、ユーザーは音声の単語を編集し、アーティファクトを減らし、パフォーマンスの非言語的な側面を操作するために必要な口の動きをさらに洗練することができる。
我々のツールは、ターゲットのアクタービデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成する。
- 参考スコア(独自算出の注目度): 42.964779538134714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a text-based tool for editing talking-head video that enables an
iterative editing workflow. On each iteration users can edit the wording of the
speech, further refine mouth motions if necessary to reduce artifacts and
manipulate non-verbal aspects of the performance by inserting mouth gestures
(e.g. a smile) or changing the overall performance style (e.g. energetic,
mumble). Our tool requires only 2-3 minutes of the target actor video and it
synthesizes the video for each iteration in about 40 seconds, allowing users to
quickly explore many editing possibilities as they iterate. Our approach is
based on two key ideas. (1) We develop a fast phoneme search algorithm that can
quickly identify phoneme-level subsequences of the source repository video that
best match a desired edit. This enables our fast iteration loop. (2) We
leverage a large repository of video of a source actor and develop a new
self-supervised neural retargeting technique for transferring the mouth motions
of the source actor to the target actor. This allows us to work with relatively
short target actor videos, making our approach applicable in many real-world
editing scenarios. Finally, our refinement and performance controls give users
the ability to further fine-tune the synthesized results.
- Abstract(参考訳): 本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。
各イテレーションでは、ユーザーは音声の単語を編集したり、アーチファクトを減らしたり、口のジェスチャー(例えば笑顔)を挿入したり、全体的なパフォーマンススタイルを変更したり(例えば、エネルギティック、ムブル)、パフォーマンスの非言語的な側面を操作できる。
私たちのツールは、ターゲットのアクタビデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成します。
我々のアプローチは2つの重要なアイデアに基づいている。
1) 所望の編集に最も適したソースリポジトリビデオの音素レベルサブシーケンスを素早く識別できる高速音素探索アルゴリズムを開発した。
これにより、速いイテレーションループが可能になります。
2) ソースアクタの大規模なビデオリポジトリを活用し, ソースアクタの口の動きをターゲットアクタに伝達する, 新たな自己教師付き神経再ターゲティング手法を開発した。
これにより、比較的短いターゲットのアクタービデオで作業することが可能となり、我々のアプローチは多くの現実世界の編集シナリオに適用できる。
最後に,改良と性能制御により,合成結果のさらなる微調整が可能となった。
関連論文リスト
- Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with
Instructions [16.45538217622068]
近年のニューラル・トーキング・ラジアンス・フィールド法は,音声駆動型音声合成において大きな成功を収めている。
このような暗黙的な神経表現を人間の指示で編集する新しい対話型フレームワークを提案する。
我々の手法は、最先端の手法に比べてレンダリング品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-06-19T10:03:11Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor [44.36920938661454]
本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
評価の結果,人為的編集の効率が向上し,映像の質が向上した。
論文 参考訳(メタデータ) (2021-10-16T14:19:12Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。