論文の概要: Geometrically Consistent Multi-View Scene Generation from Freehand Sketches
- arxiv url: http://arxiv.org/abs/2604.14302v1
- Date: Wed, 15 Apr 2026 18:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.974445
- Title: Geometrically Consistent Multi-View Scene Generation from Freehand Sketches
- Title(参考訳): フリーハンドケッチからの幾何学的に一貫性のあるマルチビューシーン生成
- Authors: Ahmed Bourouis, Savas Ozkan, Andrea Maracani, Yi-Zhe Song, Mete Ozay,
- Abstract要約: フリーハンドスケッチは、マルチビュージェネレータを提供することができる最も幾何学的に不十分な入力である。
学習データの欠如、歪んだ2次元入力からの幾何学的推論の必要性、ビュー間の整合性という3つの複合的な課題に対処する。
本フレームワークは,参照画像,反復的精細化,シーンごとの最適化を必要とせず,単一のデノナイジングプロセスですべてのビューを合成する。
- 参考スコア(独自算出の注目度): 58.98194920417429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle a new problem: generating geometrically consistent multi-view scenes from a single freehand sketch. Freehand sketches are the most geometrically impoverished input one could offer a multi-view generator. They convey scene intent through abstract strokes while introducing spatial distortions that actively conflict with any consistent 3D interpretation. No prior method attempts this; existing multi-view approaches require photographs or text, while sketch-to-3D methods need multiple views or costly per-scene optimisation. We address three compounding challenges; absent training data, the need for geometric reasoning from distorted 2D input, and cross-view consistency, through three mutually reinforcing contributions: (i) a curated dataset of $\sim$9k sketch-to-multiview samples, constructed via an automated generation and filtering pipeline; (ii) Parallel Camera-Aware Attention Adapters (CA3) that inject geometric inductive biases into the video transformer; and (iii) a Sparse Correspondence Supervision Loss (CSL) derived from Structure-from-Motion reconstructions. Our framework synthesizes all views in a single denoising process without requiring reference images, iterative refinement, or per-scene optimization. Our approach significantly outperforms state-of-the-art two-stage baselines, improving realism (FID) by over 60% and geometric consistency (Corr-Acc) by 23%, while providing up to a 3.7$\times$ inference speedup.
- Abstract(参考訳): 我々は1枚のフリーハンドスケッチから幾何学的に一貫したマルチビューシーンを生成するという新しい問題に取り組む。
フリーハンドスケッチは、マルチビュージェネレータを提供することができる最も幾何学的に不十分な入力である。
抽象的なストロークを通してシーン意図を伝達し、一貫した3次元解釈と積極的に矛盾する空間歪みを導入する。
既存のマルチビューアプローチでは写真やテキストが必要であり、スケッチから3Dメソッドでは複数のビューが必要であり、シーンごとの最適化に費用がかかる。
我々は3つの複合的な課題に対処する: トレーニングデータ不足、歪んだ2次元入力からの幾何学的推論の必要性、および3つの相互強化を通じて、相互に寄与する。
i) 自動生成およびフィルタリングパイプラインを介して構築された$\sim$9kのスケッチ・ツー・マルチビューのデータセットのキュレート。
二 ビデオトランスに幾何学的帰納バイアスを注入するパラレルカメラ対応注意適応器(CA3)
三 構造再生から派生したスパース対応監視損失(CSL)
本フレームワークは,参照画像,反復的精細化,シーンごとの最適化を必要とせず,単一のデノナイズプロセスですべてのビューを合成する。
提案手法は最先端の2段階ベースラインを著しく上回り、現実性(FID)を60%以上改善し、幾何整合性(Corr-Acc)を23%向上させ、最大3.7$\times$推論スピードアップを実現した。
関連論文リスト
- GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis [73.97869945427645]
GeoNVSは、幾何学的忠実度とカメラ制御性の両方を明示的な3D幾何学的ガイダンスによって強化する新規なビューシンセサイザーである。
GS-Adapterは3次元ガウス表現に入力ビュー拡散特徴を持ち上げ、幾何学的に矛盾しない表現を補正するために拡散特徴を適応的に融合させる。
9シーンと18設定の実験では最先端のパフォーマンスを示し、SEVAやCameraCtrlよりも11.3%、14.9%改善されている。
論文 参考訳(メタデータ) (2026-03-16T08:23:00Z) - Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting [17.17292309504131]
GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。
提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T09:04:01Z) - T$^3$-S2S: Training-free Triplet Tuning for Sketch to Scene Generation [56.054622766743414]
本研究では,Sketch-to-Scene (T3-S2S) 生成のためのトレーニング不要トリプルトチューニングを提案する。
プロンプトバランスモジュールによるキーワード表現を強化し、クリティカルなインスタンスが欠落するリスクを低減する。
実験により,既存のスケッチ・ツー・イメージモデルの性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-12-18T04:01:32Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。