論文の概要: GeoMVD: Geometry-Enhanced Multi-View Generation Model Based on Geometric Information Extraction
- arxiv url: http://arxiv.org/abs/2511.12204v3
- Date: Wed, 19 Nov 2025 08:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.100364
- Title: GeoMVD: Geometry-Enhanced Multi-View Generation Model Based on Geometric Information Extraction
- Title(参考訳): GeoMVD:幾何学的情報抽出に基づく幾何学的多視点生成モデル
- Authors: Jiaqi Wu, Yaosen Chen, Shuyuan Zhu,
- Abstract要約: マルチビュー画像生成はコンピュータビジョンにおいて重要な応用価値を持つ。
単一画像の拡張に依存する既存の手法では、クロスビューの一貫性を維持する上で、注目すべき計算課題に直面している。
本稿では,多視点幾何情報を抽出する機構を組み込んだ幾何誘導多視点拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 15.701540201818192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view image generation holds significant application value in computer vision, particularly in domains like 3D reconstruction, virtual reality, and augmented reality. Most existing methods, which rely on extending single images, face notable computational challenges in maintaining cross-view consistency and generating high-resolution outputs. To address these issues, we propose the Geometry-guided Multi-View Diffusion Model, which incorporates mechanisms for extracting multi-view geometric information and adjusting the intensity of geometric features to generate images that are both consistent across views and rich in detail. Specifically, we design a multi-view geometry information extraction module that leverages depth maps, normal maps, and foreground segmentation masks to construct a shared geometric structure, ensuring shape and structural consistency across different views. To enhance consistency and detail restoration during generation, we develop a decoupled geometry-enhanced attention mechanism that strengthens feature focus on key geometric details, thereby improving overall image quality and detail preservation. Furthermore, we apply an adaptive learning strategy that fine-tunes the model to better capture spatial relationships and visual coherence between the generated views, ensuring realistic results. Our model also incorporates an iterative refinement process that progressively improves the output quality through multiple stages of image generation. Finally, a dynamic geometry information intensity adjustment mechanism is proposed to adaptively regulate the influence of geometric data, optimizing overall quality while ensuring the naturalness of generated images. More details can be found on the project page: https://sobeymil.github.io/GeoMVD.com.
- Abstract(参考訳): マルチビュー画像生成はコンピュータビジョン、特に3D再構成、仮想現実、拡張現実のような領域において、重要な応用価値を持っている。
既存のほとんどの手法は、単一画像の拡張に依存しており、クロスビューの一貫性を維持し、高解像度の出力を生成する際に、顕著な計算上の課題に直面している。
これらの課題に対処するために,多視点幾何情報を抽出し,幾何学的特徴の強度を調整する機構を組み込んだ幾何誘導多視点拡散モデルを提案する。
具体的には、深度マップ、正規地図、前景セグメンテーションマスクを利用した多視点幾何情報抽出モジュールを設計し、共有幾何構造を構築し、異なるビューの形状と構造的整合性を確保する。
生成時の整合性と細部復元性を高めるため,重要な幾何学的詳細に焦点を絞った非結合型幾何強調機構を開発し,画像の画質と細部保存性を向上させる。
さらに,空間的関係や視覚的コヒーレンスをより正確に把握し,現実的な結果を確実にする適応学習手法を適用した。
また、画像生成の複数の段階を通じて出力品質を段階的に改善する反復的精錬プロセスも組み込んだ。
最後に、動的幾何情報強度調整機構を提案し、幾何データの影響を適応的に制御し、生成した画像の自然性を確保しつつ、全体的な品質を最適化する。
詳細はプロジェクトのページにある。 https://sobeymil.github.io/GeoMVD.com.com
関連論文リスト
- Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - Multi-view dense image matching with similarity learning and geometry priors [0.0]
MV-DeepSimNetsは、マルチビュー類似性学習用に設計されたディープニューラルネットワークのスイートである。
我々のアプローチは、ピクセル関係を特徴づける前に、オンライン幾何学を取り入れている。
幾何的プレコンディショニング法は,多視点再構成のためのエピポーラ的特徴を効果的に適用する。
論文 参考訳(メタデータ) (2025-05-16T13:55:40Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Learning Formation of Physically-Based Face Attributes [16.55993873730069]
4000個の高分解能顔スキャンを組み合わせたデータセットに基づいて,非線形形態素顔モデルを提案する。
我々のディープラーニングに基づく生成モデルは、アルベドと幾何学の相関を学習し、生成した資産の解剖学的正確性を保証する。
論文 参考訳(メタデータ) (2020-04-02T07:01:30Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。