論文の概要: Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation
- arxiv url: http://arxiv.org/abs/2511.22121v1
- Date: Thu, 27 Nov 2025 05:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.409199
- Title: Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation
- Title(参考訳): Cue3D:シングルイメージ3D生成における画像キューの役割の定量化
- Authors: Xiang Li, Zirui Wang, Zixuan Huang, James M. Rehg,
- Abstract要約: 単一画像の3D生成における個々の画像キューの影響を定量化するためのモデルに依存しないフレームワークであるCue3Dを紹介する。
シェーディング,テクスチャ,シルエット,パースペクティブ,エッジ,局所連続性などの系統的に摂動することで,それらの3次元出力品質への影響を測定する。
- 参考スコア(独自算出の注目度): 45.15552870943012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans and traditional computer vision methods rely on a diverse set of monocular cues to infer 3D structure from a single image, such as shading, texture, silhouette, etc. While recent deep generative models have dramatically advanced single-image 3D generation, it remains unclear which image cues these methods actually exploit. We introduce Cue3D, the first comprehensive, model-agnostic framework for quantifying the influence of individual image cues in single-image 3D generation. Our unified benchmark evaluates seven state-of-the-art methods, spanning regression-based, multi-view, and native 3D generative paradigms. By systematically perturbing cues such as shading, texture, silhouette, perspective, edges, and local continuity, we measure their impact on 3D output quality. Our analysis reveals that shape meaningfulness, not texture, dictates generalization. Geometric cues, particularly shading, are crucial for 3D generation. We further identify over-reliance on provided silhouettes and diverse sensitivities to cues such as perspective and local continuity across model families. By dissecting these dependencies, Cue3D advances our understanding of how modern 3D networks leverage classical vision cues, and offers directions for developing more transparent, robust, and controllable single-image 3D generation models.
- Abstract(参考訳): 人間と伝統的なコンピュータビジョンの手法は、シェーディング、テクスチャ、シルエットなど、単一の画像から3D構造を推測するために、多様な単眼の手がかりに依存している。
最近のディープ・ジェネレーティブ・モデルでは、画期的な単一画像の3D生成が進んでいるが、どの画像が実際にこれらの手法を活用しているのかは不明だ。
Cue3Dは、単一画像の3D生成における個々の画像キューの影響を定量化するための、最初の包括的モデルに依存しないフレームワークである。
本ベンチマークでは,レグレッションベース,マルチビュー,ネイティブな3D生成パラダイムにまたがる,最先端の7つの手法を評価する。
シェーディング,テクスチャ,シルエット,パースペクティブ,エッジ,局所連続性などの系統的に摂動することで,それらの3次元出力品質への影響を測定する。
分析の結果, テクスチャではなく, 形状意味性が一般化を規定していることが判明した。
幾何学的手がかり、特にシェーディングは、3D世代にとって不可欠である。
さらに、モデル家族間の視点や局所的な連続性といった手がかりに対して、提供されたシルエットと多様な感性に対する信頼度をさらに高める。
これらの依存関係を分離することで、Cue3Dは、現代の3Dネットワークがどのように古典的なビジョンの手がかりを利用するかを理解し、より透明で堅牢で制御可能なシングルイメージの3D生成モデルを開発するための方向性を提供する。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - 3D-GIF: 3D-Controllable Object Generation via Implicit Factorized
Representations [31.095503715696722]
本稿では、ビュー非依存かつ光異方性のある因子化表現と、ランダムにサンプリングされた光条件によるトレーニングスキームを提案する。
因子化表現,再照明画像,アルベドテクスチャメッシュを可視化することで,本手法の優位性を実証する。
これは、追加のラベルや仮定なしで、未提示の2Dイメージでアルベドテクスチャメッシュを抽出する最初の作業である。
論文 参考訳(メタデータ) (2022-03-12T15:23:17Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。