論文の概要: DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly
- arxiv url: http://arxiv.org/abs/2402.19302v1
- Date: Thu, 29 Feb 2024 16:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:06:51.285554
- Title: DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly
- Title(参考訳): DiffAssemble: 2次元および3次元再構成のための統一グラフ拡散モデル
- Authors: Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari, Pietro
Morerio, Alessio Del Bue
- Abstract要約: グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
- 参考スコア(独自算出の注目度): 21.497180110855975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reassembly tasks play a fundamental role in many fields and multiple
approaches exist to solve specific reassembly problems. In this context, we
posit that a general unified model can effectively address them all,
irrespective of the input data type (images, 3D, etc.). We introduce
DiffAssemble, a Graph Neural Network (GNN)-based architecture that learns to
solve reassembly tasks using a diffusion model formulation. Our method treats
the elements of a set, whether pieces of 2D patch or 3D object fragments, as
nodes of a spatial graph. Training is performed by introducing noise into the
position and rotation of the elements and iteratively denoising them to
reconstruct the coherent initial pose. DiffAssemble achieves state-of-the-art
(SOTA) results in most 2D and 3D reassembly tasks and is the first
learning-based approach that solves 2D puzzles for both rotation and
translation. Furthermore, we highlight its remarkable reduction in run-time,
performing 11 times faster than the quickest optimization-based method for
puzzle solving. Code available at https://github.com/IIT-PAVIS/DiffAssemble
- Abstract(参考訳): 再組み立てタスクは多くの分野で基本的な役割を担っており、特定の再組み立て問題を解決するために複数のアプローチが存在する。
この文脈では、入力データの種類(画像、3Dなど)に関係なく、汎用統一モデルがこれらすべてに効果的に対処できると仮定する。
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入し,拡散モデルの定式化を用いて再組立タスクの解法を学ぶ。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
要素の位置と回転にノイズを導入し、それらを反復してコヒーレントな初期ポーズを再構築してトレーニングを行う。
diffassembleは最先端(sota)の結果を2dと3dで再組み立てし、回転と翻訳の両方の2dパズルを解く最初の学習ベースのアプローチである。
さらに,最も高速な最適化手法よりも11倍の高速化を実現し,実行時間の大幅な削減を図った。
https://github.com/IIT-PAVIS/DiffAssembleで利用可能なコード
関連論文リスト
- Learning Structure-from-Motion with Graph Attention Networks [23.87562683118926]
本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力とし,対応するカメラポーズと3Dキーポイント座標を出力するモデルを学習する。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
論文 参考訳(メタデータ) (2023-08-30T12:13:13Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。