論文の概要: ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points
- arxiv url: http://arxiv.org/abs/2512.07504v1
- Date: Mon, 08 Dec 2025 12:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.888056
- Title: ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points
- Title(参考訳): ControlVP: 一貫性のある消滅点を持つAI生成画像のインタラクティブな幾何学的リファインメント
- Authors: Ryota Okumura, Kaede Shiohara, Toshihiko Yamasaki,
- Abstract要約: 生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
- 参考スコア(独自算出の注目度): 32.23473666846317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image models, such as Stable Diffusion, have achieved impressive visual quality, yet they often suffer from geometric inconsistencies that undermine the structural realism of generated scenes. One prominent issue is vanishing point inconsistency, where projections of parallel lines fail to converge correctly in 2D space. This leads to structurally implausible geometry that degrades spatial realism, especially in architectural scenes. We propose ControlVP, a user-guided framework for correcting vanishing point inconsistencies in generated images. Our approach extends a pre-trained diffusion model by incorporating structural guidance derived from building contours. We also introduce geometric constraints that explicitly encourage alignment between image edges and perspective cues. Our method enhances global geometric consistency while maintaining visual fidelity comparable to the baselines. This capability is particularly valuable for applications that require accurate spatial structure, such as image-to-3D reconstruction. The dataset and source code are available at https://github.com/RyotaOkumura/ControlVP .
- Abstract(参考訳): 安定拡散のような最近のテキスト・ツー・イメージモデルは目覚ましい視覚的品質を達成しているが、しばしば、生成されたシーンの構造的リアリズムを損なう幾何学的不整合に悩まされる。
1つの顕著な問題は、平行線の射影が2次元空間において正しく収束しない点の矛盾を解消することである。
このことは、特に建築シーンにおいて、空間的リアリズムを低下させる構造的に不可解な幾何学へと繋がる。
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
また、画像エッジと視点キューのアライメントを明示的に促進する幾何学的制約も導入する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
この機能は、画像から3Dの再構成のような正確な空間構造を必要とするアプリケーションには特に有用である。
データセットとソースコードはhttps://github.com/RyotaOkumura/ControlVPで入手できる。
関連論文リスト
- GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - VA-GS: Enhancing the Geometric Representation of Gaussian Splatting via View Alignment [48.147381011235446]
3D Gaussian Splattingは、リアルタイムな新規ビュー合成のための効率的なソリューションとして最近登場した。
ビューアライメントによる3次元ガウス多様体の幾何学的表現を強化する新しい手法を提案する。
本手法は, 表面再構成と新しいビュー合成の両面において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T14:44:50Z) - CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction [24.09888364478496]
我々は,点-雲密度マップから直接ベクトルフロアプランを再構築する堅牢なフレームワークであるCAGEを提案する。
CAGEは最先端のパフォーマンスを達成し、F1スコアは99.1%(部屋)、91.7%(コーナー)、89.3%(角度)である。
論文 参考訳(メタデータ) (2025-09-18T22:10:37Z) - Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization? [8.82283453148819]
建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。
フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。
既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。
本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
論文 参考訳(メタデータ) (2025-07-25T01:34:26Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。