論文の概要: Multistable Shape from Shading Emerges from Patch Diffusion
- arxiv url: http://arxiv.org/abs/2405.14530v2
- Date: Sat, 02 Nov 2024 18:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:44.872738
- Title: Multistable Shape from Shading Emerges from Patch Diffusion
- Title(参考訳): パッチ拡散によるシェーディングエマージからのマルチスタブル形状
- Authors: Xinran Nicole Han, Todd Zickler, Ko Nishino,
- Abstract要約: 単一シェーディング画像から形状のマルチモーダル分布を再構成するモデルを提案する。
このモデルから,人間がマルチスタブルであるとして経験するあいまいなテスト画像に対して,マルチスタブルな形状説明が現れることを示す。
これは、3D形状の知覚のための新しいアーキテクチャを刺激し、より効率的で、人間の体験に合わせたものになるかもしれない。
- 参考スコア(独自算出の注目度): 17.090405682103167
- License:
- Abstract: Models for inferring monocular shape of surfaces with diffuse reflection -- shape from shading -- ought to produce distributions of outputs, because there are fundamental mathematical ambiguities of both continuous (e.g., bas-relief) and discrete (e.g., convex/concave) types that are also experienced by humans. Yet, the outputs of current models are limited to point estimates or tight distributions around single modes, which prevent them from capturing these effects. We introduce a model that reconstructs a multimodal distribution of shapes from a single shading image, which aligns with the human experience of multistable perception. We train a small denoising diffusion process to generate surface normal fields from $16\times 16$ patches of synthetic images of everyday 3D objects. We deploy this model patch-wise at multiple scales, with guidance from inter-patch shape consistency constraints. Despite its relatively small parameter count and predominantly bottom-up structure, we show that multistable shape explanations emerge from this model for ambiguous test images that humans experience as being multistable. At the same time, the model produces veridical shape estimates for object-like images that include distinctive occluding contours and appear less ambiguous. This may inspire new architectures for stochastic 3D shape perception that are more efficient and better aligned with human experience.
- Abstract(参考訳): なぜなら、連続(eg, bas-relief)と離散(eg, convex/concave)の両タイプの基本的な数学的曖昧さがあるからである。
しかし、現在のモデルの出力は単一モードの周りの点推定や厳密な分布に限られており、これらの効果を捉えることができない。
一つのシェーディング画像から形状のマルチモーダル分布を再構成するモデルを提案する。
日常の3Dオブジェクトの合成画像の16ドル16セントのパッチから表面の正規場を生成するために、小さな偏微分拡散過程を訓練する。
このモデルを複数スケールでパッチ単位でデプロイし、パッチ間の整合性制約からガイダンスを得る。
比較的小さなパラメータ数とボトムアップ構造にもかかわらず、このモデルから人間がマルチスタブルであると経験するあいまいなテスト画像に対して、マルチスタブルな形状の説明が現れることを示す。
同時に、モデルは、独特の閉塞輪郭を含むオブジェクトのような画像に対して、よりあいまいに見えず、検証可能な形状を推定する。
これは、より効率的で、人間の経験と整合した、確率的な3D形状知覚のための新しいアーキテクチャを刺激するかもしれない。
関連論文リスト
- OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。
本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:21:26Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models [15.846449180313778]
PolyDiffは、現実的で多様な3Dポリゴンメッシュを直接生成できる最初の拡散ベースのアプローチである。
我々のモデルは、下流3Dに統合可能な高品質な3D多角形メッシュを生成することができる。
論文 参考訳(メタデータ) (2023-12-18T18:19:26Z) - Diffusion with Forward Models: Solving Stochastic Inverse Problems
Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。
コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-20T17:53:00Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural
Implicit Shapes [117.76767853430243]
SNARFは多角形メッシュに対する線形ブレンドスキンの利点とニューラル暗黙表面の利点を組み合わせたものである。
反復ルート探索を用いて任意の変形点のすべての正準対応を探索するフォワードスキンモデルを提案する。
最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。
論文 参考訳(メタデータ) (2021-04-08T17:54:59Z) - 3D Shape Generation and Completion through Point-Voxel Diffusion [24.824065748889048]
3次元形状の確率的生成モデリングのための新しいアプローチを提案する。
Point-Voxel Diffusion (PVD) は、無条件形状生成と条件付き多モード形状完成のための統一的確率的定式化である。
PVDは、観測点雲データからガウスノイズへの拡散過程を逆転させ、(条件付き)確率関数に束縛された変動下限を最適化することにより、一連のデノナイズステップと見なすことができる。
論文 参考訳(メタデータ) (2021-04-08T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。