論文の概要: Pippo: High-Resolution Multi-View Humans from a Single Image
- arxiv url: http://arxiv.org/abs/2502.07785v1
- Date: Tue, 11 Feb 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:27.037246
- Title: Pippo: High-Resolution Multi-View Humans from a Single Image
- Title(参考訳): Pippo:1枚の画像から高解像度のマルチビュー人間
- Authors: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov,
- Abstract要約: Pippoは、1つのクリックした写真から1K解像度の高精細なターンアラウンドビデオを生成できる生成モデルである。
ピッポは多視点拡散変換器であり、追加の入力を必要としない。
我々は,スタジオで捕獲された人間に対して,マルチビューのミッドトレーニングとポストトレーニングを実施している。
- 参考スコア(独自算出の注目度): 28.295120237348222
- License:
- Abstract: We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.
- Abstract(参考訳): Pippoは、1つのクリックした写真から1K解像度の高精細なターンアラウンドビデオを生成できる生成モデルである。
Pippoは多視点拡散変換器であり、入力画像のパラメトリックモデルやカメラパラメータなど追加の入力を必要としない。
我々は,Pippoをキャプションなしで3B画像上で事前訓練し,スタジオで捕獲された人間に対して,マルチビューのミッドトレーニングとポストトレーニングを行った。
トレーニング中、スタジオデータセットを素早く吸収するために、低解像度で複数の(最大48)ビューを識別し、浅いMLPを使用してターゲットカメラを粗くエンコードする。
ポストトレーニング中、高解像度での視界を減らし、ピクセルアラインメント制御(例えば、空間アンカー、プルッカー線)を使用して3D一貫した世代を可能にする。
そこで本研究では,Pippoがトレーニング中に見るビューの5倍以上のビューを同時に生成できる注意バイアス手法を提案する。
最後に,マルチビュー世代における3次元の整合性を評価するための改良された指標を導入し,Pippoが単一画像からのマルチビュー・ヒューマン・ジェネレーションにおける既存の作業よりも優れていることを示す。
関連論文リスト
- Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - Event-guided Multi-patch Network with Self-supervision for Non-uniform
Motion Deblurring [113.96237446327795]
本稿では,ぼやけた画像やビデオを扱うための,イベント誘導型深層階層型マルチパッチネットワークを提案する。
また、ビデオ内の複雑なぼやけに対処するために、動画に含まれる動きの手がかりを利用するイベント誘導アーキテクチャを提案する。
我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムでGoProとVideoDeblurringデータセットの最先端を達成しています。
論文 参考訳(メタデータ) (2023-02-14T15:58:00Z) - MPS-NeRF: Generalizable 3D Human Rendering from Multiview Images [32.84481902544513]
本論文は,複数視点画像のみを入力として,トレーニング中に見えない人のための新しいビューと新しいポーズのレンダリングを扱う。
鍵となる要素は、正準NeRFと体積変形スキームを組み合わせた専用表現である。
本手法の有効性を総合的に示すために,新しいビュー合成とアニメーションタスクを用いた実データと合成データの両方の実験を行った。
論文 参考訳(メタデータ) (2022-03-31T08:09:03Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。