論文の概要: Jump Cut Smoothing for Talking Heads
- arxiv url: http://arxiv.org/abs/2401.04718v2
- Date: Thu, 11 Jan 2024 04:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 11:17:55.898292
- Title: Jump Cut Smoothing for Talking Heads
- Title(参考訳): 音声頭のためのジャンプカット平滑化
- Authors: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
- Abstract要約: 本稿では,音声ヘッドビデオにおけるジャンプカットの平滑化のための新しいフレームワークを提案する。
Denseキーポイントと顔のランドマークによって駆動される中間レベルの表現と融合することで、ビデオ内の他のソースフレームからの被写体の外観を活用します。
実験の結果, 発声頭部が回転したり, 動いたりした場合であっても, シームレスな遷移を達成できることが判明した。
- 参考スコア(独自算出の注目度): 38.928299142407624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A jump cut offers an abrupt, sometimes unwanted change in the viewing
experience. We present a novel framework for smoothing these jump cuts, in the
context of talking head videos. We leverage the appearance of the subject from
the other source frames in the video, fusing it with a mid-level representation
driven by DensePose keypoints and face landmarks. To achieve motion, we
interpolate the keypoints and landmarks between the end frames around the cut.
We then use an image translation network from the keypoints and source frames,
to synthesize pixels. Because keypoints can contain errors, we propose a
cross-modal attention scheme to select and pick the most appropriate source
amongst multiple options for each key point. By leveraging this mid-level
representation, our method can achieve stronger results than a strong video
interpolation baseline. We demonstrate our method on various jump cuts in the
talking head videos, such as cutting filler words, pauses, and even random
cuts. Our experiments show that we can achieve seamless transitions, even in
the challenging cases where the talking head rotates or moves drastically in
the jump cut.
- Abstract(参考訳): ジャンプカットは、視聴体験が突然、時には望ましくない変化をもたらす。
本稿では,これらのジャンプカットをスムースにするための新しいフレームワークを提案する。
DensePoseキーポイントと顔のランドマークによって駆動される中間レベルの表現と融合することで、ビデオ内の他のソースフレームから被写体の外観を活用する。
動作を達成するために、カット周辺の端フレーム間でキーポイントとランドマークを補間する。
次に、キーポイントとソースフレームから画像翻訳ネットワークを使用してピクセルを合成する。
キーポイントはエラーを含むことができるため、キーポイントごとに複数の選択肢の中から最も適切なソースを選択し選択するクロスモーダル注意スキームを提案する。
この中間表現を利用することで,強力な映像補間ベースラインよりも強い結果が得られる。
提案手法は,音声ヘッドビデオの様々なジャンプカット,例えば,フィラーワードのカット,ポーズ,さらにはランダムカットについて実証する。
実験の結果,ジャンプカット時に頭部が回転する,あるいは大きく動くといった困難な場合であっても,シームレスな遷移が可能であった。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Generating Continual Human Motion in Diverse 3D Scenes [56.70255926954609]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - Compressing Video Calls using Synthetic Talking Heads [43.71577046989023]
本稿では,ヘッドビデオ圧縮のためのエンドツーエンドシステムを提案する。
提案アルゴリズムは,他の音声ヘッドビデオがアニメーションによって生成される間,ピボットフレームを断続的に送信する。
我々は、最先端の顔再現ネットワークを用いて、非ピボットフレームのキーポイントを検出し、それを受信機に送信する。
論文 参考訳(メタデータ) (2022-10-07T16:52:40Z) - A Keypoint Based Enhancement Method for Audio Driven Free View Talking
Head Synthesis [14.303621416852602]
音声駆動型自由視点音声ヘッド合成のためのキーポイントベース拡張(KPBE)手法を提案する。
実験の結果,提案手法により,平均意見スコアによる音声の質が向上した。
論文 参考訳(メタデータ) (2022-10-07T05:44:10Z) - Image Animation with Keypoint Mask [0.0]
モーショントランスファー(Motion Transfer)は、特定の駆動ビデオからの動作に応じて、単一のソース画像の将来のビデオフレームを合成するタスクである。
本研究では,キーポイントのヒートマップから,明示的な動作表現を伴わずに構造を抽出する。
そして、画像と映像から構造を抽出し、深部ジェネレータにより映像に応じて映像をワープする。
論文 参考訳(メタデータ) (2021-12-20T11:35:06Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。