論文の概要: SmartSpatial: Enhancing the 3D Spatial Arrangement Capabilities of Stable Diffusion Models and Introducing a Novel 3D Spatial Evaluation Framework
- arxiv url: http://arxiv.org/abs/2501.01998v1
- Date: Wed, 01 Jan 2025 04:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:04.964823
- Title: SmartSpatial: Enhancing the 3D Spatial Arrangement Capabilities of Stable Diffusion Models and Introducing a Novel 3D Spatial Evaluation Framework
- Title(参考訳): SmartSpatial: 安定拡散モデルの3次元空間配置能力の向上と新しい3次元空間評価フレームワークの導入
- Authors: Mao Xun Huang, Hen-Hsen Huang,
- Abstract要約: 安定拡散モデルの空間配置能力を高める革新的なアプローチであるSmartSpatialを導入する。
SmartSpatialは深度情報を導入し、正確なオブジェクト配置を保証するためにクロスアテンション制御を使用する。
本稿では,空間的関係を評価するための総合的な評価フレームワークSmartSpatialEvalを提案する。
- 参考スコア(独自算出の注目度): 13.57106812488327
- License:
- Abstract: Stable Diffusion models have made remarkable strides in generating photorealistic images from text prompts but often falter when tasked with accurately representing complex spatial arrangements, particularly involving intricate 3D relationships. To address this limitation, we introduce SmartSpatial, an innovative approach that enhances the spatial arrangement capabilities of Stable Diffusion models through 3D-aware conditioning and attention-guided mechanisms. SmartSpatial incorporates depth information and employs cross-attention control to ensure precise object placement, delivering notable improvements in spatial accuracy metrics. In conjunction with SmartSpatial, we present SmartSpatialEval, a comprehensive evaluation framework designed to assess spatial relationships. This framework utilizes vision-language models and graph-based dependency parsing for performance analysis. Experimental results on the COCO and SpatialPrompts datasets show that SmartSpatial significantly outperforms existing methods, setting new benchmarks for spatial arrangement accuracy in image generation.
- Abstract(参考訳): 安定拡散モデルは、テキストプロンプトからフォトリアリスティックな画像を生成する際、顕著な進歩を遂げてきたが、複雑な空間配置、特に複雑な3D関係を正確に表現する作業は、しばしば失敗している。
この制限に対処するため,我々は3Dコンディショニングとアテンション誘導機構を通じて安定拡散モデルの空間配置能力を向上する革新的アプローチであるSmartSpatialを導入する。
SmartSpatialは深度情報を組み込んだクロスアテンションコントロールを使用して、正確なオブジェクト配置を保証し、空間的精度のメトリクスを顕著に改善する。
本稿では,SmartSpatialとともに,空間的関係を評価するための総合的な評価フレームワークSmartSpatialEvalを提案する。
このフレームワークは、視覚言語モデルとグラフベースの依存性解析を利用してパフォーマンス分析を行う。
COCOとSpatialPromptsデータセットの実験結果から、SmartSpatialは既存の手法よりも優れており、画像生成における空間配置精度の新たなベンチマークが設定されている。
関連論文リスト
- vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [0.0]
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度センシングを使用して、強力で包括的な環境理解を生成する。
我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像の意味的特徴を組み合わせたものである。
マルチモダリティ技術を用いることで、性能が大幅に向上し、検証セットで72.46%の最先端のmIoUが得られる。
論文 参考訳(メタデータ) (2024-08-09T11:34:19Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - 3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。
暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。
提案モデルは最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2024-05-12T05:36:37Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - Spatiotemporal Camera-LiDAR Calibration: A Targetless and Structureless
Approach [32.15405927679048]
ターゲットレスで構造のないカメラ-DARキャリブレーション法を提案する。
本手法は, 時間的パラメータの初期調整を必要としないような, 閉形式解と非構造束を結合する。
提案手法の精度とロバスト性をシミュレーションおよび実データ実験により実証する。
論文 参考訳(メタデータ) (2020-01-17T07:25:59Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。