論文の概要: PuzzleFusion: Unleashing the Power of Diffusion Models for Spatial
Puzzle Solving
- arxiv url: http://arxiv.org/abs/2211.13785v2
- Date: Wed, 31 May 2023 03:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 23:28:29.246393
- Title: PuzzleFusion: Unleashing the Power of Diffusion Models for Spatial
Puzzle Solving
- Title(参考訳): puzzlefusion:空間パズル解のための拡散モデルの力を解き放つ
- Authors: Sepidehsadat Hosseini, Mohammad Amin Shabani, Saghar Irandoust,
Yasutaka Furukawa
- Abstract要約: 本稿では,空間パズル解決のための拡散モデルに基づくエンドツーエンドのニューラルネットワークアーキテクチャを提案する。
驚くべき発見は、拡散モデルを用いることで、条件生成プロセスとしてこれらの困難な空間パズルタスクを効果的に解決できるということである。
- 参考スコア(独自算出の注目度): 23.69787242474676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end neural architecture based on Diffusion
Models for spatial puzzle solving, particularly jigsaw puzzle and room
arrangement tasks. In the latter task, for instance, the proposed system
``PuzzleFusion'' takes a set of room layouts as polygonal curves in the
top-down view and aligns the room layout pieces by estimating their 2D
translations and rotations, akin to solving the jigsaw puzzle of room layouts.
A surprising discovery of the paper is that the simple use of a Diffusion Model
effectively solves these challenging spatial puzzle tasks as a conditional
generation process. To enable learning of an end-to-end neural system, the
paper introduces new datasets with ground-truth arrangements: 1) 2D Voronoi
jigsaw dataset, a synthetic one where pieces are generated by Voronoi diagram
of 2D pointset; and 2) MagicPlan dataset, a real one offered by MagicPlan from
its production pipeline, where pieces are room layouts constructed by augmented
reality App by real-estate consumers. The qualitative and quantitative
evaluations demonstrate that our approach outperforms the competing methods by
significant margins in all the tasks. We will publicly share all our code and
data.
- Abstract(参考訳): 本稿では,空間パズル解法,特にジグソーパズルとルームアレンジタスクのための拡散モデルに基づくエンドツーエンドニューラルネットワークアーキテクチャを提案する。
後者のタスクでは、例えば「PuzzleFusion」というシステムでは、一組の部屋レイアウトをトップダウンビューの多角形曲線として取り、部屋レイアウトのジグソーパズルの解法と同様に、2次元の翻訳と回転を推定して部屋レイアウトを整列する。
この論文の驚くべき発見は、拡散モデル(Diffusion Model)の簡単な使用により、条件生成プロセスとしてこれらの困難な空間パズルタスクを効果的に解くことである。
本稿では,エンド・ツー・エンドのニューラルネットワークの学習を可能にするために,接地配置を用いた新しいデータセットを提案する。
1) 2d voronoi jigsawデータセット,2d pointsetのvoronoiダイアグラムによってピースが生成される合成データセット,
2) magicplanデータセットは、製品パイプラインからmagicplanが提供する現実のデータセットで、現実の消費者が拡張現実アプリによって構築したルームレイアウトである。
定性的かつ定量的な評価は、我々の手法が全てのタスクにおいて大きなマージンで競合する手法よりも優れていることを示す。
すべてのコードとデータを公開します。
関連論文リスト
- Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly [21.497180110855975]
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
論文 参考訳(メタデータ) (2024-02-29T16:09:12Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Positional Diffusion: Ordering Unordered Sets with Diffusion
Probabilistic Models [32.63654140960086]
拡散確率モデルを用いたプラグ・アンド・プレイグラフの定式化を行う。
前方プロセスを用いて、集合内の要素の位置を連続空間内のランダムな位置にマッピングする。
位置拡散は、ノイズ発生過程を逆転させ、アテンションベースのグラフニューラルネットワークを通じて元の位置を復元する。
論文 参考訳(メタデータ) (2023-03-20T14:01:01Z) - Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries [27.564355569013706]
本稿では,複数の部屋の多角形を並列に生成するトランスフォーマーアーキテクチャを提案する。
提案手法は,Structured3DとSceneCADの2つの挑戦的データセットに対して,新たな最先端化を実現する。
追加情報、すなわちセマンティックルームタイプやドアや窓のようなアーキテクチャ要素を予測するために簡単に拡張できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:09Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z) - MCTS with Refinement for Proposals Selection Games in Scene
Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。
提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。
本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文 参考訳(メタデータ) (2022-07-07T10:15:54Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。