Fugu-MT 論文翻訳(概要): JigsawPlan: Room Layout Jigsaw Puzzle Extreme Structure from Motion using Diffusion Models

論文の概要: JigsawPlan: Room Layout Jigsaw Puzzle Extreme Structure from Motion using Diffusion Models

arxiv url: http://arxiv.org/abs/2211.13785v1
Date: Thu, 24 Nov 2022 20:06:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:58:46.224209
Title: JigsawPlan: Room Layout Jigsaw Puzzle Extreme Structure from Motion using Diffusion Models
Title（参考訳）: JigsawPlan: 拡散モデルを用いた動作からの部屋レイアウトJigsawパズル極端構造
Authors: Sepidehsadat Hosseini, Mohammad Amin Shabani, Saghar Irandoust, Yasutaka Furukawa
Abstract要約: 本稿では,トップダウンビューの多角曲線として,部屋配置の集合を取り入れたE-SfM問題に対する新しいアプローチを提案する。提案手法は,部屋レイアウトのジグソーパズルの解法と似て,部屋レイアウトの2次元翻訳と回転を推定することにより,部屋レイアウトのピースを整列する。
参考スコア（独自算出の注目度）: 23.69787242474676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a novel approach to the Extreme Structure from Motion (E-SfM) problem, which takes a set of room layouts as polygonal curves in the top-down view, and aligns the room layout pieces by estimating their 2D translations and rotations, akin to solving the jigsaw puzzle of room layouts. The biggest discovery and surprise of the paper is that the simple use of a Diffusion Model solves this challenging registration problem as a conditional generation process. The paper presents a new dataset of room layouts and floorplans for 98,780 houses. The qualitative and quantitative evaluations demonstrate that the proposed approach outperforms the competing methods by significant margins.
Abstract（参考訳）: 本稿では, 最上階の多角形曲線として部屋レイアウトの集合を取り, 2次元の翻訳と回転を推定し, 部屋配置のジグソーパズルの解法に類似した, 部屋配置の多角形曲線を整列する, 極端構造の運動(e-sfm)問題に対する新しいアプローチを提案する。論文の最大の発見と驚きは、拡散モデルを用いることで、条件生成プロセスとしてこの困難な登録問題を解くことである。この論文は98,780戸の部屋レイアウトとフロアプランの新しいデータセットを提示した。質的・定量的評価は,提案手法が競争法をかなり上回っていることを示す。

関連論文リスト

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles [53.47227295854126]
本研究では,基礎モデルの推論と計画能力と,複雑な動的環境におけるスケーラビリティについて検討する。 PuzzlePlexは、様々なパズルによってこれらの能力を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2025-10-07T21:24:29Z)
ERL-MPP: Evolutionary Reinforcement Learning with Multi-head Puzzle Perception for Solving Large-scale Jigsaw Puzzles of Eroded Gaps [28.009783235854584]
マルチヘッド・プッフル・パーセプションを用いた進化的強化学習の枠組みを提案する。提案したERL-MPPは、大きなギャップを持つJPLEG-5データセットと大規模なパズルを持つMITデータセットで評価される。両方のデータセットのすべての最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2025-04-13T14:56:41Z)
Generative Human Geometry Distribution [49.58025398670139]
我々は、最近提案された、高忠実度で単一の人間の幾何学をモデル化可能な、幾何学的分布に基づいて構築する。本稿では,ネットワークパラメータではなく2次元特徴写像として分布を符号化する手法と,ガウスではなく領域としてSMPLモデルを提案する。実験の結果,提案手法は既存の最先端手法よりも優れており,幾何学的品質が57%向上していることがわかった。
論文参考訳（メタデータ） (2025-03-03T11:55:19Z)
A Generic Hybrid Framework for 2D Visual Reconstruction [39.58317527488534]
本稿では,2次元実世界の再現タスクを,正方形の非重複部分を持つジグソーパズル問題 (JPP) として定式化するための多目的ハイブリッドフレームワークを提案する。提案手法は,一対のパズル片を論理的に評価する深層学習(DL)ベースの互換性尺度(CM)モデルを統合する。我々の独自のハイブリッド手法は、ポルトガルのタイルパネルと大きな劣化パズルを浸食境界で再構築することで、最先端のSOTA(State-of-the-art)を実現する。
論文参考訳（メタデータ） (2025-01-31T17:21:29Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly [21.497180110855975]
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
論文参考訳（メタデータ） (2024-02-29T16:09:12Z)
Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。 N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文参考訳（メタデータ） (2024-01-24T01:33:39Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
Positional Diffusion: Ordering Unordered Sets with Diffusion Probabilistic Models [32.63654140960086]
拡散確率モデルを用いたプラグ・アンド・プレイグラフの定式化を行う。前方プロセスを用いて、集合内の要素の位置を連続空間内のランダムな位置にマッピングする。位置拡散は、ノイズ発生過程を逆転させ、アテンションベースのグラフニューラルネットワークを通じて元の位置を復元する。
論文参考訳（メタデータ） (2023-03-20T14:01:01Z)
Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries [27.564355569013706]
本稿では,複数の部屋の多角形を並列に生成するトランスフォーマーアーキテクチャを提案する。提案手法は,Structured3DとSceneCADの2つの挑戦的データセットに対して,新たな最先端化を実現する。追加情報、すなわちセマンティックルームタイプやドアや窓のようなアーキテクチャ要素を予測するために簡単に拡張できる。
論文参考訳（メタデータ） (2022-11-28T18:59:09Z)
Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文参考訳（メタデータ） (2022-07-20T19:49:32Z)
GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文参考訳（メタデータ） (2022-07-12T16:02:00Z)
MCTS with Refinement for Proposals Selection Games in Scene Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文参考訳（メタデータ） (2022-07-07T10:15:54Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。 ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文参考訳（メタデータ） (2020-04-02T17:58:05Z)
Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文参考訳（メタデータ） (2020-03-10T10:17:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。