論文の概要: Twist and Compute: The Cost of Pose in 3D Generative Diffusion
- arxiv url: http://arxiv.org/abs/2511.08203v1
- Date: Wed, 12 Nov 2025 01:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.693727
- Title: Twist and Compute: The Cost of Pose in 3D Generative Diffusion
- Title(参考訳): TwistとCompute:3D生成拡散におけるPoseのコスト
- Authors: Kyle Fogarty, Jack Foster, Boqiao Zhang, Jing Yang, Cengiz Öztireli,
- Abstract要約: 我々は,画像条件付き3次元生成モデルにおいて,強い標準的視点バイアスという重要な限界を同定する。
本稿では,現在最先端のHunyuan3D 2.0モデルが,回転入力下での性能劣化を伴って,視点の一般化に苦慮していることを示す。
生成したバックボーンを変更することなく、入力方向を検出し、修正する軽量CNNにより、この障害を軽減できることを示す。
- 参考スコア(独自算出の注目度): 8.258483344117492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive results, large-scale image-to-3D generative models remain opaque in their inductive biases. We identify a significant limitation in image-conditioned 3D generative models: a strong canonical view bias. Through controlled experiments using simple 2D rotations, we show that the state-of-the-art Hunyuan3D 2.0 model can struggle to generalize across viewpoints, with performance degrading under rotated inputs. We show that this failure can be mitigated by a lightweight CNN that detects and corrects input orientation, restoring model performance without modifying the generative backbone. Our findings raise an important open question: Is scale enough, or should we pursue modular, symmetry-aware designs?
- Abstract(参考訳): 印象的な結果にもかかわらず、大規模な画像から3D生成モデルは誘導バイアスにおいて不透明なままである。
我々は,画像条件付き3次元生成モデルにおいて,強い標準的視点バイアスという重要な限界を同定する。
単純な2次元回転を用いた制御実験により,最先端のHunyuan3D 2.0モデルは,回転入力下での性能劣化を伴う視点の一般化に苦慮することを示した。
生成したバックボーンを変更することなく、入力方向を検出し、修正する軽量CNNにより、この障害を軽減できることを示す。
スケールは十分か、それともモジュラーで対称性を意識した設計を追求すべきか?
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - AugGS: Self-augmented Gaussians with Structural Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成はコンピュータビジョンにおける大きな課題である。
本研究では,スパース・ビュー3D再構成のための構造マスクを付加した自己拡張型2段ガウス・スプレイティング・フレームワークを提案する。
提案手法は,認識品質における最先端性能と,スパース入力との多視点整合性を実現する。
論文 参考訳(メタデータ) (2024-08-09T03:09:22Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。