論文の概要: MVGBench: Comprehensive Benchmark for Multi-view Generation Models
- arxiv url: http://arxiv.org/abs/2507.00006v1
- Date: Wed, 11 Jun 2025 08:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.373206
- Title: MVGBench: Comprehensive Benchmark for Multi-view Generation Models
- Title(参考訳): MVGBench: マルチビュー生成モデルのための総合ベンチマーク
- Authors: Xianghui Xie, Chuhang Zou, Meher Gitika Karumuri, Jan Eric Lenssen, Gerard Pons-Moll,
- Abstract要約: マルチビュー画像生成モデル(MVG)の総合ベンチマークであるMVGBenchを提案する。
MVGBenchは幾何学・テクスチャ・画質・意味論の3次元一貫性を評価する(視覚言語モデルを用いた)
得られたベストプラクティスを用いて,評価されたMVGを3次元一貫性で上回る手法であるViFiGenを提案する。
- 参考スコア(独自算出の注目度): 30.640133328009572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MVGBench, a comprehensive benchmark for multi-view image generation models (MVGs) that evaluates 3D consistency in geometry and texture, image quality, and semantics (using vision language models). Recently, MVGs have been the main driving force in 3D object creation. However, existing metrics compare generated images against ground truth target views, which is not suitable for generative tasks where multiple solutions exist while differing from ground truth. Furthermore, different MVGs are trained on different view angles, synthetic data and specific lightings -- robustness to these factors and generalization to real data are rarely evaluated thoroughly. Without a rigorous evaluation protocol, it is also unclear what design choices contribute to the progress of MVGs. MVGBench evaluates three different aspects: best setup performance, generalization to real data and robustness. Instead of comparing against ground truth, we introduce a novel 3D self-consistency metric which compares 3D reconstructions from disjoint generated multi-views. We systematically compare 12 existing MVGs on 4 different curated real and synthetic datasets. With our analysis, we identify important limitations of existing methods specially in terms of robustness and generalization, and we find the most critical design choices. Using the discovered best practices, we propose ViFiGen, a method that outperforms all evaluated MVGs on 3D consistency. Our code, model, and benchmark suite will be publicly released.
- Abstract(参考訳): 本稿では,多視点画像生成モデル(MVG)の総合ベンチマークであるMVGBenchを提案する。
近年、MVGは3Dオブジェクト生成の主要な推進力となっている。
しかし、既存のメトリクスは、生成した画像と、地上の真理とは異なる複数の解が存在する生成タスクに適さない地中真理ターゲットビューを比較している。
さらに、様々なMVGは異なる視角、合成データ、特定の照明で訓練されており、これらの要因に対する堅牢性や実際のデータへの一般化は、十分に評価されることはめったにない。
厳密な評価プロトコルがなければ,MVGの進行にどのような設計選択が寄与するかは明らかでない。
MVGBenchは、最高のセットアップパフォーマンス、実際のデータへの一般化、堅牢性という3つの異なる側面を評価している。
そこで本研究では,非結合な複数視点からの3次元再構成を比較する,新しい3次元自己整合度指標を提案する。
既存の12のMVGを4つの異なる実・合成データセットで体系的に比較した。
本分析では,ロバスト性や一般化の観点から,既存手法の重要な限界を特定し,最も重要な設計上の選択肢を見出す。
得られたベストプラクティスを用いて,評価されたMVGを3次元一貫性で上回る手法であるViFiGenを提案する。
コード、モデル、ベンチマークスイートが公開されます。
関連論文リスト
- Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation [134.53804996949287]
生成した3D資産の品質を忠実に評価できる細粒度で解釈可能な評価ツールであるEval3Dを紹介する。
我々のキーとなる観察は、意味論や幾何学的整合性といった3D生成の多くの望ましい特性を効果的に捉えられることである。
以前の研究と比較すると、Eval3Dはピクセル単位での測定を行い、正確な3D空間フィードバックを可能にし、人間の判断とより密に一致させる。
論文 参考訳(メタデータ) (2025-04-25T17:22:05Z) - MVBoost: Boost 3D Reconstruction with Multi-View Refinement [41.46372172076206]
多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。
擬似GTデータを生成し,多視点補正(MVBoost)により3次元再構成を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:55:20Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。