論文の概要: CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose
- arxiv url: http://arxiv.org/abs/2603.07144v1
- Date: Sat, 07 Mar 2026 10:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.899308
- Title: CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose
- Title(参考訳): CanoVerse: ジェネレーションとポースのための3Dオブジェクトのスケーラブルな標準化とデータセット
- Authors: Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin,
- Abstract要約: Canoverseは、1,156のカテゴリで320Kオブジェクトの巨大な標準3Dデータセットである。
Canoverseは3D生成の安定性を改善し、正確なクロスモーダルな3D形状の検索を可能にし、ゼロショットポイントクラウドの向き推定をアンロックする。
- 参考スコア(独自算出の注目度): 42.26395682704635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D learning systems implicitly assume that objects occupy a coherent reference frame. Nonetheless, in practice, every asset arrives with an arbitrary global rotation, and models are left to resolve directional ambiguity on their own. This persistent misalignment suppresses pose-consistent generation, and blocks the emergence of stable directional semantics. To address this issue, we construct \methodName{}, a massive canonical 3D dataset of 320K objects over 1,156 categories -- an order-of-magnitude increase over prior work. At this scale, directional semantics become statistically learnable: Canoverse improves 3D generation stability, enables precise cross-modal 3D shape retrieval, and unlocks zero-shot point-cloud orientation estimation even for out-of-distribution data. This is achieved by a new canonicalization framework that reduces alignment from minutes to seconds per object via compact hypothesis generation and lightweight human discrimination, transforming canonicalization from manual curation into a high-throughput data generation pipeline. The Canoverse dataset will be publicly released upon acceptance. Project page: https://github.com/123321456-gif/Canoverse
- Abstract(参考訳): 3D学習システムは、オブジェクトがコヒーレントな参照フレームを占めることを暗黙的に仮定する。
それにもかかわらず、実際には、すべての資産は任意の大域回転で到着し、モデルは自身で方向のあいまいさを解決するために残される。
この永続的なミスアライメントは、ポーズ一貫性の生成を抑制し、安定した方向セマンティクスの出現を阻害する。
この問題に対処するため、我々は1,156のカテゴリで320Kオブジェクトの巨大な標準3Dデータセットである \methodName{} を構築した。
Canoverseは3D生成の安定性を改善し、正確なクロスモーダルな3D形状の検索を可能にし、アウト・オブ・ディストリビューションデータであってもゼロショットポイントクラウドの向き推定をアンロックする。
これは、コンパクトな仮説生成と軽量な人間の識別を通じてオブジェクト毎のアライメントを数分から秒に短縮する新しい標準化フレームワークによって実現され、手動キュレーションから高スループットのデータ生成パイプラインに変換される。
Canoverseデータセットは、受理時に公開される。
プロジェクトページ:https://github.com/123321456-gif/Canoverse
関連論文リスト
- CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling [29.262031571010564]
精神物理学的な証拠は、物体を標準的なフレームに精神的に回転させ、機能的役割を明らかにすることを示しています。
そこで本研究では,潜在標準参照フレームを誘導することにより,標準空間認識を実現する方法Nameを提案する。
実験の結果,methodNameはオープンワールドのプロンプト可能な3Dセグメンテーションにおいて,技術の新たな状態を確立することがわかった。
論文 参考訳(メタデータ) (2026-03-01T17:57:43Z) - Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - Orientation Matters: Making 3D Generative Models Orientation-Aligned [39.941774172257105]
既存の3D生成モデルは、一貫性のないトレーニングデータのために、しばしば不整合結果を生成する。
本稿では,カテゴリ毎に一貫した配向を持つ3次元オブジェクトを生成する3次元オブジェクト生成タスクについて紹介する。
多視点拡散に基づく2つの代表的3次元生成モデルと3次元変分オートエンコーダフレームワークを微調整し、直感的に整列したオブジェクトを生成する。
論文 参考訳(メタデータ) (2025-06-10T09:54:37Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。