論文の概要: SPAFormer: Sequential 3D Part Assembly with Transformers
- arxiv url: http://arxiv.org/abs/2403.05874v1
- Date: Sat, 9 Mar 2024 10:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:05:43.396116
- Title: SPAFormer: Sequential 3D Part Assembly with Transformers
- Title(参考訳): SPAFormer: トランスフォーマーを備えた逐次3Dパーツアセンブリ
- Authors: Boshen Xu, Sipeng Zheng, Qin Jin
- Abstract要約: SPAFormerは,3次元部品アセンブリ(3D-PA)タスクにおける爆発的課題を克服するために設計された,革新的なモデルである。
このタスクは、各部品のポーズと形状を逐次的に正確に予測することを必要とし、部品の数が増えるにつれて、可能な組合わせの組み合わせは指数関数的に増加する。
組立部分列は、単語によって構成されている文に似た構成規則を伝達するため、並列およびオートリタスクの生成を探索する。
- 参考スコア(独自算出の注目度): 59.545114016224254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SPAFormer, an innovative model designed to overcome the
combinatorial explosion challenge in the 3D Part Assembly (3D-PA) task. This
task requires accurate prediction of each part's pose and shape in sequential
steps, and as the number of parts increases, the possible assembly combinations
increase exponentially, leading to a combinatorial explosion that severely
hinders the efficacy of 3D-PA. SPAFormer addresses this problem by leveraging
weak constraints from assembly sequences, effectively reducing the solution
space's complexity. Since assembly part sequences convey construction rules
similar to sentences being structured through words, our model explores both
parallel and autoregressive generation. It further enhances assembly through
knowledge enhancement strategies that utilize the attributes of parts and their
sequence information, enabling it to capture the inherent assembly pattern and
relationships among sequentially ordered parts. We also construct a more
challenging benchmark named PartNet-Assembly covering 21 varied categories to
more comprehensively validate the effectiveness of SPAFormer. Extensive
experiments demonstrate the superior generalization capabilities of SPAFormer,
particularly with multi-tasking and in scenarios requiring long-horizon
assembly. Codes and model weights will be released at
\url{https://github.com/xuboshen/SPAFormer}.
- Abstract(参考訳): SPAFormerは3Dパートアセンブリ(3D-PA)タスクにおける組合せ的爆発的課題を克服するために設計された革新的なモデルである。
このタスクは、各部品のポーズと形状を逐次的に正確に予測することを必要とし、部品の数が増えるにつれて、可能な組み立ての組み合わせは指数関数的に増加し、3D-PAの有効性を著しく阻害する組合せ爆発を引き起こす。
spaformerは、アセンブリシーケンスからの弱い制約を利用してこの問題に対処し、ソリューション空間の複雑さを効果的に低減する。
組み立て部分列は、文の構造に類似した構成規則を単語で伝達するので、並列生成と自己回帰生成の両方を探索する。
さらに、部品の属性とそのシーケンス情報を利用する知識強化戦略を通じてアセンブリを強化し、固有のアセンブリパターンと順序順に順序付けられた部品間の関係をキャプチャする。
また,21種類のカテゴリをカバーするpartnet-assemblyという,より挑戦的なベンチマークを構築し,spaformerの有効性をより包括的に検証した。
大規模な実験では、SPAFormerの優れた一般化能力、特にマルチタスクや長期水平組立を必要とするシナリオが示される。
コードとモデルウェイトは \url{https://github.com/xuboshen/spaformer} でリリースされる。
関連論文リスト
- Jigsaw++: Imagining Complete Shape Priors for Object Reassembly [35.16793557538698]
Jigsaw++は、再アセンブリ問題に対する再構築の多面的課題に取り組むために設計された、新しい生成方法である。
完全なオブジェクトの前にカテゴリに依存しない形状を学ぶことで、自分自身を区別する。
J Jigsaw++は、その効果を示し、再構築エラーを低減し、形状復元の精度を高める。
論文 参考訳(メタデータ) (2024-10-15T17:45:37Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。
これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。
異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文 参考訳(メタデータ) (2024-05-27T17:38:55Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Multi-level Reasoning for Robotic Assembly: From Sequence Inference to
Contact Selection [74.40109927350856]
本稿では,PAST(Part Assembly Sequence Transformer)を用いて,対象とするブループリントからアセンブリシーケンスを推論する。
次に、モーションプランナーと最適化を使用して、部品の動きと接触を生成する。
実験結果から,本手法は従来手法よりも一般化されていることがわかった。
論文 参考訳(メタデータ) (2023-12-17T00:47:13Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose
Estimation [22.648409352844997]
我々は階層型空間時間変換器 (HSTFormer) を提案し, 高精度な3次元ポーズ推定のために, 多段階関節の時空間相関を局所的からグローバル的に徐々に捉えている。
HSTFormerは4つの変換器エンコーダ(TE)と1つの融合モジュールから構成される。
MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
論文 参考訳(メタデータ) (2023-01-18T05:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。