論文の概要: Orientation Matters: Making 3D Generative Models Orientation-Aligned
- arxiv url: http://arxiv.org/abs/2506.08640v1
- Date: Tue, 10 Jun 2025 09:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.259929
- Title: Orientation Matters: Making 3D Generative Models Orientation-Aligned
- Title(参考訳): オリエンテーションの課題:3D生成モデルをオリエンテーションに適合させる
- Authors: Yichong Lu, Yuzhuo Tian, Zijin Jiang, Yikun Zhao, Yuanbo Yang, Hao Ouyang, Haoji Hu, Huimin Yu, Yujun Shen, Yiyi Liao,
- Abstract要約: 既存の3D生成モデルは、一貫性のないトレーニングデータのために、しばしば不整合結果を生成する。
本稿では,カテゴリ毎に一貫した配向を持つ3次元オブジェクトを生成する3次元オブジェクト生成タスクについて紹介する。
多視点拡散に基づく2つの代表的3次元生成モデルと3次元変分オートエンコーダフレームワークを微調整し、直感的に整列したオブジェクトを生成する。
- 参考スコア(独自算出の注目度): 39.941774172257105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans intuitively perceive object shape and orientation from a single image, guided by strong priors about canonical poses. However, existing 3D generative models often produce misaligned results due to inconsistent training data, limiting their usability in downstream tasks. To address this gap, we introduce the task of orientation-aligned 3D object generation: producing 3D objects from single images with consistent orientations across categories. To facilitate this, we construct Objaverse-OA, a dataset of 14,832 orientation-aligned 3D models spanning 1,008 categories. Leveraging Objaverse-OA, we fine-tune two representative 3D generative models based on multi-view diffusion and 3D variational autoencoder frameworks to produce aligned objects that generalize well to unseen objects across various categories. Experimental results demonstrate the superiority of our method over post-hoc alignment approaches. Furthermore, we showcase downstream applications enabled by our aligned object generation, including zero-shot object orientation estimation via analysis-by-synthesis and efficient arrow-based object rotation manipulation.
- Abstract(参考訳): 人間は1つの画像から直感的に物体の形状と向きを知覚し、正統的なポーズに関する強い先行性によって導かれる。
しかし、既存の3D生成モデルは、一貫性のないトレーニングデータのために、しばしば不整合結果を生成し、下流タスクのユーザビリティを制限している。
このギャップに対処するために,カテゴリ毎に一貫した配向を持つ単一画像から3次元オブジェクトを生成するという,配向に整合した3次元オブジェクト生成のタスクを導入する。
これを容易にするために、1,008のカテゴリにまたがる14,832の配向整列3DモデルのデータセットであるObjaverse-OAを構築した。
我々はObjaverse-OAを活用することで、多視点拡散に基づく2つの代表3次元生成モデルと3次元変分オートエンコーダフレームワークを微調整し、様々なカテゴリにまたがる未確認オブジェクトによく一般化するアライメントオブジェクトを生成する。
実験により, 本手法がポストホックアライメント法よりも優れていることが示された。
さらに、解析バイシンセサイザーによるゼロショットオブジェクトの向き推定や、効率的な矢印ベースのオブジェクト回転操作など、アライメントされたオブジェクト生成によって実現された下流アプリケーションについても紹介する。
関連論文リスト
- Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - A3D: Does Diffusion Dream about 3D Alignment? [73.97853402817405]
幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
我々は、これらのオブジェクトを共通の潜在空間に埋め込み、これらのオブジェクト間の連続的な遷移を最適化することを提案する。
論文 参考訳(メタデータ) (2024-06-21T09:49:34Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。