Fugu-MT 論文翻訳(概要): Towards 4D Human Video Stylization

論文の概要: Towards 4D Human Video Stylization

arxiv url: http://arxiv.org/abs/2312.04143v1
Date: Thu, 7 Dec 2023 08:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 15:44:30.267348
Title: Towards 4D Human Video Stylization
Title（参考訳）: 4次元映像スタイライゼーションに向けて
Authors: Tiantian Wang, Xinxin Zuo, Fangzhou Mu, Jian Wang, Ming-Hsuan Yang
Abstract要約: 本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
参考スコア（独自算出の注目度）: 56.33756124829298
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a first step towards 4D (3D and time) human video stylization, which addresses style transfer, novel view synthesis and human animation within a unified framework. While numerous video stylization methods have been developed, they are often restricted to rendering images in specific viewpoints of the input video, lacking the capability to generalize to novel views and novel poses in dynamic scenes. To overcome these limitations, we leverage Neural Radiance Fields (NeRFs) to represent videos, conducting stylization in the rendered feature space. Our innovative approach involves the simultaneous representation of both the human subject and the surrounding scene using two NeRFs. This dual representation facilitates the animation of human subjects across various poses and novel viewpoints. Specifically, we introduce a novel geometry-guided tri-plane representation, significantly enhancing feature representation robustness compared to direct tri-plane optimization. Following the video reconstruction, stylization is performed within the NeRFs' rendered feature space. Extensive experiments demonstrate that the proposed method strikes a superior balance between stylized textures and temporal coherence, surpassing existing approaches. Furthermore, our framework uniquely extends its capabilities to accommodate novel poses and viewpoints, making it a versatile tool for creative human video stylization.
Abstract（参考訳）: 本稿では、4dビデオスタイライゼーションに向けた第一歩として,スタイル転送,新規なビュー合成,ヒューマンアニメーションを統一したフレームワークで実現する。多くのビデオスタイリング手法が開発されているが、しばしば入力ビデオの特定の視点における画像のレンダリングに制限され、ダイナミックなシーンにおける新しいビューや新しいポーズに一般化する能力に欠ける。これらの制限を克服するために、我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。我々の革新的なアプローチは、2つのNeRFを用いて人体と周囲の両方のシーンを同時に表現することである。この二重表現は、様々なポーズや新しい視点で人間の主題のアニメーションを促進する。具体的には, 直接三面最適化に比べて特徴表現のロバスト性が著しく向上する, 新たな幾何誘導三面表現を導入する。ビデオ再構成後、NeRFのレンダリングされた特徴空間内でスタイリングが行われる。広範な実験により,提案手法は,既存の手法を上回って,スタイリッシュなテクスチャと時間的コヒーレンスとのバランスが優れていることが示された。さらに,新たなポーズや視点に対応するために,その能力を独自に拡張し,創造的なヒューマンビデオスタイライゼーションのための汎用ツールとした。

関連論文リスト

CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-12-15T05:57:36Z)
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文参考訳（メタデータ） (2024-09-03T16:53:19Z)
G3DST: Generalizing 3D Style Transfer with Neural Radiance Fields across Scenes and Styles [45.92812062685523]
既存の3Dスタイル転送の方法は、シングルまたは複数スタイルのシーンごとの広範な最適化が必要である。本研究では, シーンごとの最適化やスタイルごとの最適化を必要とせずに, NeRF からスタイリングされた新しいビューをレンダリングすることで, 既存の手法の限界を克服する。以上の結果から,本手法はシーンごとの手法に匹敵する視覚的品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-08-24T08:04:19Z)
Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文参考訳（メタデータ） (2024-07-31T08:54:50Z)
Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文参考訳（メタデータ） (2024-04-22T17:59:50Z)
Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文参考訳（メタデータ） (2023-08-15T13:00:42Z)
HDHumans: A Hybrid Approach for High-fidelity Digital Humans [107.19426606778808]
HDHumansは、正確な時間的コヒーレントな3D変形面を共同で生成する、HDヒューマン文字合成の最初の方法である。我々の手法は、古典的表面変形とニューラル放射場(NeRF)の相乗効果を達成するために慎重に設計されている。
論文参考訳（メタデータ） (2022-10-21T14:42:11Z)
SNeRF: Stylized Neural Implicit Representations for 3D Scenes [9.151746397358522]
本稿では,一貫した新規ビュー合成に強い帰納バイアスを与える3次元シーンスタイリングについて検討する。我々は3次元シーン表現の選択として、新しい神経放射場(NeRF)を採用する。我々は、NeRFとスタイリゼーション最適化のステップを交互に行い、この問題に対処する新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-07-05T23:45:02Z)
Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文参考訳（メタデータ） (2021-06-25T13:32:23Z)
Stylizing 3D Scene via Implicit Representation and HyperNetwork [34.22448260525455]
簡単な解決策は、既存の新しいビュー合成と画像/ビデオスタイルの転送アプローチを組み合わせることである。ニューラルレイディアンスフィールド(NeRF)法の高品質な結果にインスパイアされ,新しいビューを所望のスタイルで直接描画するジョイントフレームワークを提案する。本フレームワークは,ニューラルネットワークを用いた3次元シーンの暗黙的表現と,シーン表現にスタイル情報を転送するハイパーネットワークという2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2021-05-27T09:11:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。