論文の概要: ShowMak3r: Compositional TV Show Reconstruction
- arxiv url: http://arxiv.org/abs/2504.19584v1
- Date: Mon, 28 Apr 2025 08:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.364626
- Title: ShowMak3r: Compositional TV Show Reconstruction
- Title(参考訳): ShowMak3r: コンポジションTVショーの再構築
- Authors: Sangmin Kim, Seunguk Do, Jaesik Park,
- Abstract要約: ShowMak3rは、プロダクションコントロールルームでビデオクリップの作成方法のようなシーンの編集を可能にする総合的な再構築パイプラインである。
ShowMak3rでは、3DLocatorモジュールがステージ上のリカバリアクターを事前に検出し、目に見えない人間のポーズを推定する。
提案されているShotMatcherモジュールは、ショット変更中のアクターを追跡する。
Sitcoms3Dデータセットの実験によると、私たちのパイプラインは、異なるタイムスタンプで新しいカメラでテレビ番組のシーンを再組み立てできる。
- 参考スコア(独自算出の注目度): 23.721995944526014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic radiance fields from video clips is challenging, especially when entertainment videos like TV shows are given. Many challenges make the reconstruction difficult due to (1) actors occluding with each other and having diverse facial expressions, (2) cluttered stages, and (3) small baseline views or sudden shot changes. To address these issues, we present ShowMak3r, a comprehensive reconstruction pipeline that allows the editing of scenes like how video clips are made in a production control room. In ShowMak3r, a 3DLocator module locates recovered actors on the stage using depth prior and estimates unseen human poses via interpolation. The proposed ShotMatcher module then tracks the actors under shot changes. Furthermore, ShowMak3r introduces a face-fitting network that dynamically recovers the actors' expressions. Experiments on Sitcoms3D dataset show that our pipeline can reassemble TV show scenes with new cameras at different timestamps. We also demonstrate that ShowMak3r enables interesting applications such as synthetic shot-making, actor relocation, insertion, deletion, and pose manipulation. Project page : https://nstar1125.github.io/showmak3r
- Abstract(参考訳): 特にテレビ番組などのエンターテイメントビデオが提供される場合、ビデオクリップからダイナミックなラディアンスフィールドを再構築することは困難である。
多くの課題は,(1)アクター同士が介在し,表情が多様であること,(2)乱雑なステージであること,(3)小さなベースラインビューや突然のショット変更によって再建が困難になる。
これらの問題に対処するために、私たちはShowMak3rを紹介します。これは、プロダクションコントロールルームでビデオクリップの作成方法のようなシーンの編集を可能にする包括的な再構築パイプラインです。
ShowMak3rでは、3DLocatorモジュールがステージ上の回復したアクターを事前に検出し、補間によって見えない人間のポーズを推定する。
提案されているShotMatcherモジュールは、ショット変更中のアクターを追跡する。
さらに、ShowMak3rはアクターの表情を動的に復元するフェイスフィットネットワークを導入している。
Sitcoms3Dデータセットの実験によると、私たちのパイプラインは、異なるタイムスタンプで新しいカメラでテレビ番組のシーンを再組み立てできる。
また、ShowMak3rは、合成ショット作成、アクターの移動、挿入、削除、ポーズ操作といった興味深い応用を可能にしていることを示す。
プロジェクトページ:https://nstar1125.github.io/showmak3r
関連論文リスト
- Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文 参考訳(メタデータ) (2025-03-08T16:27:53Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - Associative3D: Volumetric Reconstruction from Sparse Views [17.5320459412718]
本稿では,未知のカメラを用いた2つのシーンからの3次元ボリューム再構成の問題について検討する。
本稿では, カメラ/オブジェクト上の再構成, 分布, カメラ/カメラ変換を推定する新しい手法を提案する。
屋内シーンのデータセットにアプローチをトレーニングし、テストし、共同推論アプローチのメリットを厳格に評価する。
論文 参考訳(メタデータ) (2020-07-27T17:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。