論文の概要: GenSpace: Benchmarking Spatially-Aware Image Generation
- arxiv url: http://arxiv.org/abs/2505.24870v1
- Date: Fri, 30 May 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.129346
- Title: GenSpace: Benchmarking Spatially-Aware Image Generation
- Title(参考訳): GenSpace: 空間認識画像生成のベンチマーク
- Authors: Zehan Wang, Jiayang Xu, Ziang Zhang, Tianyu Pan, Chao Du, Hengshuang Zhao, Zhou Zhao,
- Abstract要約: 人間は直感的に、写真のために3D空間でシーンを作成し、配置する。
高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の3D空間認識を備えたシーンを計画できるだろうか?
我々は、現在の画像生成モデルの空間的認識を評価するための新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
- 参考スコア(独自算出の注目度): 64.85946595023599
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans can intuitively compose and arrange scenes in the 3D space for photography. However, can advanced AI image generators plan scenes with similar 3D spatial awareness when creating images from text or image prompts? We present GenSpace, a novel benchmark and evaluation pipeline to comprehensively assess the spatial awareness of current image generation models. Furthermore, standard evaluations using general Vision-Language Models (VLMs) frequently fail to capture the detailed spatial errors. To handle this challenge, we propose a specialized evaluation pipeline and metric, which reconstructs 3D scene geometry using multiple visual foundation models and provides a more accurate and human-aligned metric of spatial faithfulness. Our findings show that while AI models create visually appealing images and can follow general instructions, they struggle with specific 3D details like object placement, relationships, and measurements. We summarize three core limitations in the spatial perception of current state-of-the-art image generation models: 1) Object Perspective Understanding, 2) Egocentric-Allocentric Transformation and 3) Metric Measurement Adherence, highlighting possible directions for improving spatial intelligence in image generation.
- Abstract(参考訳): 人間は直感的に3D空間のシーンを組み立てて撮影することができる。
しかし、高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の空間認識を備えたシーンを計画できるだろうか?
我々は、現在の画像生成モデルの空間的認識を包括的に評価する新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
さらに、一般的な視覚言語モデル(VLM)を用いた標準的な評価は、詳細な空間誤差を捉えるのにしばしば失敗する。
この課題に対処するために,複数の視覚基盤モデルを用いて3次元シーン形状を再構成し,空間忠実度をより正確かつ人間に整合した計量を提供する,特殊評価パイプラインと計量法を提案する。
我々の研究結果によると、AIモデルは視覚的に魅力的な画像を作成し、一般的な指示に従うことができる一方で、物体の位置、関係、測定など、特定の3Dの詳細に苦慮している。
現在最先端画像生成モデルにおける空間知覚における3つの中核的限界を要約する。
1)オブジェクト・パースペクティブ・理解
2)エゴセントリック・アロセントリック・トランスフォーメーションとアロセントリック・トランスフォーメーション
3)画像生成における空間的インテリジェンス向上への道のりを強調したメトリクス計測の整合性。
関連論文リスト
- Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。