論文の概要: Multistable Shape from Shading Emerges from Patch Diffusion
- arxiv url: http://arxiv.org/abs/2405.14530v1
- Date: Thu, 23 May 2024 13:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:05:17.845542
- Title: Multistable Shape from Shading Emerges from Patch Diffusion
- Title(参考訳): パッチ拡散によるシェーディングエマージからのマルチスタブル形状
- Authors: Xinran Nicole Han, Todd Zickler, Ko Nishino,
- Abstract要約: 単一シェーディング画像から形状のマルチモーダル分布を再構成するモデルを提案する。
本研究では,このモデルから「あいまいな」テスト画像に対して,マルチスタブルな形状説明が現れることを示す。
これは、3D形状の知覚のための新しいアーキテクチャを刺激し、より効率的で、人間の体験に合わせたものになるかもしれない。
- 参考スコア(独自算出の注目度): 17.090405682103167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for monocular shape reconstruction of surfaces with diffuse reflection -- shape from shading -- ought to produce distributions of outputs, because there are fundamental mathematical ambiguities of both continuous (e.g., bas-relief) and discrete (e.g., convex/concave) varieties which are also experienced by humans. Yet, the outputs of current models are limited to point estimates or tight distributions around single modes, which prevent them from capturing these effects. We introduce a model that reconstructs a multimodal distribution of shapes from a single shading image, which aligns with the human experience of multistable perception. We train a small denoising diffusion process to generate surface normal fields from $16\times 16$ patches of synthetic images of everyday 3D objects. We deploy this model patch-wise at multiple scales, with guidance from inter-patch shape consistency constraints. Despite its relatively small parameter count and predominantly bottom-up structure, we show that multistable shape explanations emerge from this model for ''ambiguous'' test images that humans experience as being multistable. At the same time, the model produces veridical shape estimates for object-like images that include distinctive occluding contours and appear less ambiguous. This may inspire new architectures for stochastic 3D shape perception that are more efficient and better aligned with human experience.
- Abstract(参考訳): なぜなら、連続(eg, bas-relief)と離散(eg, convex/concave)の両品種の基本的な数学的曖昧さがあるからである。
しかし、現在のモデルの出力は単一モードの周りの点推定や厳密な分布に限られており、これらの効果を捉えることができない。
一つのシェーディング画像から形状のマルチモーダル分布を再構成するモデルを提案する。
日常の3Dオブジェクトの合成画像の16ドル16セントのパッチから表面の正規場を生成するために、小さな偏微分拡散過程を訓練する。
このモデルを複数スケールでパッチ単位でデプロイし、パッチ間の整合性制約からガイダンスを得る。
比較的小さなパラメータ数とボトムアップ構造にもかかわらず、このモデルから人間がマルチスタブルであると経験する「あいまいな」テスト画像に対して、マルチスタブルな形状説明が現れることを示す。
同時に、モデルは、独特の閉塞輪郭を含むオブジェクトのような画像に対して、よりあいまいに見えず、検証可能な形状を推定する。
これは、より効率的で、人間の経験と整合した、確率的な3D形状知覚のための新しいアーキテクチャを刺激するかもしれない。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model [81.03553265684184]
FDGaussianは、シングルイメージ3D再構成のための新しい2段階フレームワークである。
最近の手法では、通常、事前訓練された2次元拡散モデルを用いて、入力画像から可塑性な新しいビューを生成する。
我々は,FDGaussianが様々な視点で高一貫性の画像を生成し,高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models [15.846449180313778]
PolyDiffは、現実的で多様な3Dポリゴンメッシュを直接生成できる最初の拡散ベースのアプローチである。
我々のモデルは、下流3Dに統合可能な高品質な3D多角形メッシュを生成することができる。
論文 参考訳(メタデータ) (2023-12-18T18:19:26Z) - 3D shape reconstruction of semi-transparent worms [0.950214811819847]
3D形状の再構成は通常、被写体の複数の画像に物体の特徴やテクスチャを特定する必要がある。
ここでは、画像と比較するために、適応的ぼかしと透明度で候補形状を描画することで、これらの課題を克服する。
本研究は,線虫類の細いカエノルハブディティ・エレガンスを,生物学的にインフォームドされた制約や規則化を自然に許容する内在的パラメトリションを用いて3次元曲線としてモデル化する。
論文 参考訳(メタデータ) (2023-04-28T13:29:36Z) - Learning to Generate 3D Representations of Building Roofs Using
Single-View Aerial Imagery [68.3565370706598]
本研究では,空撮画像から建物屋根メッシュの条件分布を学習するための新しいパイプラインを提案する。
同一物体の複数の画像を必要とする代替手法とは違って,本手法では,一つの画像のみを用いて予測を行う3次元屋根メッシュを推定できる。
論文 参考訳(メタデータ) (2023-03-20T15:47:05Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural
Implicit Shapes [117.76767853430243]
SNARFは多角形メッシュに対する線形ブレンドスキンの利点とニューラル暗黙表面の利点を組み合わせたものである。
反復ルート探索を用いて任意の変形点のすべての正準対応を探索するフォワードスキンモデルを提案する。
最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。
論文 参考訳(メタデータ) (2021-04-08T17:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。