論文の概要: Leveraging Pretrained Diffusion Models for Zero-Shot Part Assembly
- arxiv url: http://arxiv.org/abs/2505.00426v1
- Date: Thu, 01 May 2025 09:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.277869
- Title: Leveraging Pretrained Diffusion Models for Zero-Shot Part Assembly
- Title(参考訳): ゼロショット部品組立のための事前学習拡散モデルの導入
- Authors: Ruiyuan Zhang, Qi Wang, Jiaxiang Liu, Yu Zhang, Yuchi Huo, Chao Wu,
- Abstract要約: 3Dパートアセンブリは、パートの関係を理解し、現実的な3D形状を構築するための6-DoFのポーズを予測することを目的としている。
既存の手法では、各部分の変換を、監督下のニューラルネットワークのトレーニングによって推定する。
本稿では,事前学習点雲拡散モデルを用いたゼロショット部品組立法を提案する。
- 参考スコア(独自算出の注目度): 12.580076968391337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D part assembly aims to understand part relationships and predict their 6-DoF poses to construct realistic 3D shapes, addressing the growing demand for autonomous assembly, which is crucial for robots. Existing methods mainly estimate the transformation of each part by training neural networks under supervision, which requires a substantial quantity of manually labeled data. However, the high cost of data collection and the immense variability of real-world shapes and parts make traditional methods impractical for large-scale applications. In this paper, we propose first a zero-shot part assembly method that utilizes pre-trained point cloud diffusion models as discriminators in the assembly process, guiding the manipulation of parts to form realistic shapes. Specifically, we theoretically demonstrate that utilizing a diffusion model for zero-shot part assembly can be transformed into an Iterative Closest Point (ICP) process. Then, we propose a novel pushing-away strategy to address the overlap parts, thereby further enhancing the robustness of the method. To verify our work, we conduct extensive experiments and quantitative comparisons to several strong baseline methods, demonstrating the effectiveness of the proposed approach, which even surpasses the supervised learning method. The code has been released on https://github.com/Ruiyuan-Zhang/Zero-Shot-Assembly.
- Abstract(参考訳): 3D部品組み立ては、部品の関係を理解し、現実的な3D形状を構築するための6-DoFのポーズを予測することを目的としている。
既存の方法は、主に、手動でラベル付けされた大量のデータを必要とする、監督下のニューラルネットワークをトレーニングすることで、各部分の変換を推定する。
しかし、データ収集の高コストと現実世界の形状や部品の膨大な変動により、大規模アプリケーションでは従来の手法は実用的ではない。
本稿では,まず,事前学習した点雲拡散モデルを用いて,部品の操作を誘導し,現実的な形状を形成するゼロショット部分集合法を提案する。
具体的には、ゼロショット部品組立体への拡散モデルの利用を反復閉点(ICP)プロセスに変換することを理論的に実証する。
そこで本研究では,重なり合う部分に対処する新たなプッシュアウト戦略を提案し,その堅牢性をさらに向上させる。
提案手法の有効性を実証し,提案手法が教師付き学習法を超越した手法であることを示す。
コードはhttps://github.com/Ruiyuan-Zhang/Zero-Shot-Assemblyで公開されている。
関連論文リスト
- Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation [68.81887041766373]
ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。
本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。
提案手法は,最先端の領域一般化性能を実現する。
論文 参考訳(メタデータ) (2025-02-04T17:46:34Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Attention-based Part Assembly for 3D Volumetric Shape Modeling [0.0]
本稿では、注意に基づく部分集合のためのVoxAttention Networkアーキテクチャを提案する。
実験結果から,本手法は部分関係を考慮した3次元形状モデリングタスクにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-17T16:53:27Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。