論文の概要: Render In-between: Motion Guided Video Synthesis for Action
Interpolation
- arxiv url: http://arxiv.org/abs/2111.01029v1
- Date: Mon, 1 Nov 2021 15:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:29:58.646902
- Title: Render In-between: Motion Guided Video Synthesis for Action
Interpolation
- Title(参考訳): render in- between: motion guided video synthesis for action interpolation
- Authors: Hsuan-I Ho, Xu Chen, Jie Song, Otmar Hilliges
- Abstract要約: 本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
- 参考スコア(独自算出の注目度): 53.43607872972194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Upsampling videos of human activity is an interesting yet challenging task
with many potential applications ranging from gaming to entertainment and
sports broadcasting. The main difficulty in synthesizing video frames in this
setting stems from the highly complex and non-linear nature of human motion and
the complex appearance and texture of the body. We propose to address these
issues in a motion-guided frame-upsampling framework that is capable of
producing realistic human motion and appearance. A novel motion model is
trained to inference the non-linear skeletal motion between frames by
leveraging a large-scale motion-capture dataset (AMASS). The high-frame-rate
pose predictions are then used by a neural rendering pipeline to produce the
full-frame output, taking the pose and background consistency into
consideration. Our pipeline only requires low-frame-rate videos and unpaired
human motion data but does not require high-frame-rate videos for training.
Furthermore, we contribute the first evaluation dataset that consists of
high-quality and high-frame-rate videos of human activities for this task.
Compared with state-of-the-art video interpolation techniques, our method
produces in-between frames with better quality and accuracy, which is evident
by state-of-the-art results on pixel-level, distributional metrics and
comparative user evaluations. Our code and the collected dataset are available
at https://git.io/Render-In-Between.
- Abstract(参考訳): 人間のアクティビティのアップサンプリングは、ゲームからエンターテイメント、スポーツ放送に至るまで、多くの潜在的なアプリケーションにおいて、興味深いが難しい課題だ。
この環境でビデオフレームを合成することの主な難しさは、人間の動きの非常に複雑で非線形な性質と、身体の複雑な外観とテクスチャに起因する。
本稿では,現実的な人間の動きと外観を創出できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャデータセット(amass)を利用して、フレーム間の非線形骨格運動を推定する新しいモーションモデルを訓練する。
高いフレームレートのポーズ予測は、ニューラルネットワークレンダリングパイプラインがフルフレーム出力を生成するために使用し、ポーズとバックグラウンドの一貫性を考慮している。
私たちのパイプラインでは、低フレームレートビデオと非ペアの人間のモーションデータしか必要ありませんが、トレーニングのために高フレームレートビデオは必要ありません。
さらに,この課題に対して,人間の活動の高品質かつ高フレームなビデオからなる最初の評価データセットを寄贈する。
現状の映像補間技術と比較すると, 画質と精度が向上し, 画素レベル, 分布測定値, 比較ユーザ評価の結果から明らかとなった。
私たちのコードと収集したデータセットはhttps://git.io/render-in- betweenで利用可能です。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Fleximo: Towards Flexible Text-to-Human Motion Video Generation [17.579663311741072]
本稿では,参照画像と自然言語のみから人間のモーションビデオを生成するための新しいタスクを提案する。
本稿では,大規模事前学習型テキスト・ツー・3Dモーションモデルを利用したFleximoというフレームワークを提案する。
Fleximoの性能を評価するために、20のアイデンティティと20のモーションにわたる400の動画を含むMotionBenchという新しいベンチマークを導入した。
論文 参考訳(メタデータ) (2024-11-29T04:09:13Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。