論文の概要: Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
- arxiv url: http://arxiv.org/abs/2506.11924v1
- Date: Fri, 13 Jun 2025 16:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.875105
- Title: Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
- Title(参考訳): クロスモーダルアテンション注入による新しいビューイメージと幾何学的合成
- Authors: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim,
- Abstract要約: ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
- 参考スコア(独自算出の注目度): 62.87088388345378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.
- Abstract(参考訳): ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
ドメイン内ビューに限定した濃密なポーズ画像やポーズ埋め込み生成モデルを必要とする従来の手法とは異なり、本手法では、既製の幾何学予測器を用いて参照画像から見る部分的な幾何学を予測し、画像と幾何学の両方の表現課題としてノベルビュー合成を定式化する。
生成した画像と幾何の正確なアライメントを確保するために,画像拡散枝からの注意マップを,トレーニングと推論の両方で並列な幾何学拡散枝に注入するクロスモーダルアテンション蒸留を提案する。
このマルチタスクアプローチは、幾何学的にロバストな画像合成と明確に定義された幾何学的予測を容易にし、相乗効果を達成する。
さらに, 近接型メッシュコンディショニングを導入して, 点雲とフィルタとの補間により, 生成過程に影響を及ぼすことなく, 近接型メッシュコンディショニングを導入する。
実験的な方法では,画像と幾何学の両面における高忠実度な外挿ビュー合成を実現し,補間条件下での競争的再現性を実現し,包括的3次元補完のために幾何学的に整列された点雲を生成する。
プロジェクトページはhttps://cvlab-kaist.github.io/MoAI.comで公開されている。
関連論文リスト
- DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - Spurfies: Sparse Surface Reconstruction using Local Geometry Priors [8.260048622127913]
我々はスパースビュー表面再構成の新しい手法であるSpurfiesを紹介した。
それは、合成データに基づいて訓練された局所幾何学的先行情報を利用するために、外観と幾何学的情報を切り離す。
提案手法をDTUデータセット上で検証し,従来技術よりも表面品質が35%向上したことを示す。
論文 参考訳(メタデータ) (2024-08-29T14:02:47Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - Towards Geometric-Photometric Joint Alignment for Facial Mesh Registration [3.1932242398896964]
本稿では,GPJA法を提案する。
幾何学的情報と測光的情報を組み合わせることで、個々の人間の表情をピクセルレベルの精度で整列する。
この一貫性は、フェースアニメーション、再パラメータ化、およびフェースモデリングおよび効率を向上したアプリケーションのためのその他のバッチ操作の恩恵を受ける。
論文 参考訳(メタデータ) (2024-03-05T03:39:23Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - PVSeRF: Joint Pixel-, Voxel- and Surface-Aligned Radiance Field for
Single-Image Novel View Synthesis [52.546998369121354]
シングルビューRGB画像からニューラル放射場を再構成する学習フレームワークPVSeRFを提案する。
本稿では,明示的な幾何学的推論を取り入れ,放射場予測のための画素アラインな特徴と組み合わせることを提案する。
このような幾何学的特徴の導入は、外観と幾何学の絡み合いを改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-10T07:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。