論文の概要: Rethinking Image-to-3D Generation with Sparse Queries: Efficiency, Capacity, and Input-View Bias
- arxiv url: http://arxiv.org/abs/2604.13905v1
- Date: Wed, 15 Apr 2026 14:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.576026
- Title: Rethinking Image-to-3D Generation with Sparse Queries: Efficiency, Capacity, and Input-View Bias
- Title(参考訳): スパースクエリによる画像間3次元生成の再考:効率性、キャパシティ、入力ビューバイアス
- Authors: Zhiyuan Xu, Jiuming Liu, Yuxin Chen, Masayoshi Tomizuka, Chenfeng Xu, Chensheng Peng,
- Abstract要約: SparseGenは,効率的な3次元画像生成のための新しいフレームワークである。
我々は、学習された3Dアンカークエリと学習された拡張演算子からなるコンパクトなスパースセットでシーンをモデル化する。
この結果から, スパース・セットラテント展開は, 効率的な3次元生成モデルのための基本的, 実用的な代替手段であると考えられる。
- 参考スコア(独自算出の注目度): 70.88698584478983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SparseGen, a novel framework for efficient image-to-3D generation, which exhibits low input-view bias while being significantly faster. Unlike traditional approaches that rely on dense volumetric grids, triplanes, or pixel-aligned primitives, we model scenes with a compact sparse set of learned 3D anchor queries and a learned expansion operator that decodes each transformed query into a small local set of 3D Gaussian primitives. Trained under a rectified-flow reconstruction objective without 3D supervision, our model learns to allocate representation capacity where geometry and appearance matter, achieving significant reductions in memory and inference time while preserving multi-view fidelity. We introduce quantitative measures of input-view bias and utilization to show that sparse queries reduce overfitting to conditioning views while being representationally efficient. Our results argue that sparse set-latent expansion is a principled, practical alternative for efficient 3D generative modeling.
- Abstract(参考訳): SparseGenは、画像から3Dまでを効率よく生成する新しいフレームワークであり、入力ビューのバイアスが低く、しかもかなり高速である。
密度の高いボリュームグリッドやトリプレーン、ピクセルアライメントプリミティブに依存する従来のアプローチとは異なり、我々は、学習された3Dアンカークエリの小さなスパースセットと、変換されたクエリを小さな3Dガウスプリミティブのローカルセットにデコードする学習拡張演算子でシーンをモデル化する。
モデルでは,3次元教師なしの修正フロー再構築目標に基づき,形状や外観が重要となる表現能力の割り当てを学習し,多視点の忠実さを維持しつつ,メモリと推論時間の大幅な短縮を実現した。
入力ビューバイアスと利用率の定量的尺度を導入し、スパースクエリが表現効率を保ちながら条件付ビューへの過度な適合を減少させることを示す。
この結果から, スパース・セットラテント展開は, 効率的な3次元生成モデルのための基本的, 実用的な代替手段であると考えられる。
関連論文リスト
- Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives [14.295266671241004]
3D Gaussian Splatting (3DGS)は、リアルタイムレンダリングをフォトリアリスティックな品質で実現した。
3DGSは高い忠実性を達成するために多くのプリミティブを必要とすることが多い。
そこで我々は, 刈り取りタイミングと精錬間隔を決定する, 効率的で統合された組立型刈り取り戦略を提案する。
また,1つのプリミティブにおいて正と負の両密度を共同でモデル化する3次元ガウス差分プリミティブも導入する。
論文 参考訳(メタデータ) (2026-02-27T16:12:58Z) - Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting [33.7339252839354]
本稿では,3次元ガウスプリミティブをサブピクセルレベルで検出するフィードフォワードアーキテクチャを提案する。
キーポイント検出にインスパイアされたデコーダは、プリミティブをイメージパッチに分散することを学ぶ。
得られたポーズフリーモデルは数秒でシーンを生成し、フィードフォワードモデルのための最先端の新規ビュー合成を実現する。
論文 参考訳(メタデータ) (2025-12-17T14:59:21Z) - C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [100.90743697473232]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
スパースビューからのシーン再構成が可能な3次元ガウススプラッティングに基づくビュー合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - AugGS: Self-augmented Gaussians with Structural Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成はコンピュータビジョンにおける大きな課題である。
本研究では,スパース・ビュー3D再構成のための構造マスクを付加した自己拡張型2段ガウス・スプレイティング・フレームワークを提案する。
提案手法は,認識品質における最先端性能と,スパース入力との多視点整合性を実現する。
論文 参考訳(メタデータ) (2024-08-09T03:09:22Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。