論文の概要: WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image
- arxiv url: http://arxiv.org/abs/2506.23518v1
- Date: Mon, 30 Jun 2025 05:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.922781
- Title: WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image
- Title(参考訳): WAVE:単一画像を用いた一貫した新規ビュー合成のためのワープ型ビューガイダンス
- Authors: Jiwoo Park, Tae Eun Choi, Youngjun Jun, Seong Jae Hwang,
- Abstract要約: 本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。
我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。
本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
- 参考スコア(独自算出の注目度): 3.4248731707266264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating high-quality novel views of a scene from a single image requires maintaining structural coherence across different views, referred to as view consistency. While diffusion models have driven advancements in novel view synthesis, they still struggle to preserve spatial continuity across views. Diffusion models have been combined with 3D models to address the issue, but such approaches lack efficiency due to their complex multi-step pipelines. This paper proposes a novel view-consistent image generation method which utilizes diffusion models without additional modules. Our key idea is to enhance diffusion models with a training-free method that enables adaptive attention manipulation and noise reinitialization by leveraging view-guided warping to ensure view consistency. Through our comprehensive metric framework suitable for novel-view datasets, we show that our method improves view consistency across various diffusion models, demonstrating its broader applicability.
- Abstract(参考訳): 単一の画像からシーンの高品質な新規ビューを生成するには、ビュー一貫性と呼ばれる、異なるビューをまたいだ構造的一貫性を維持する必要がある。
拡散モデルは、新しいビュー合成の進歩を導いてきたが、ビュー間の空間的連続性を維持するのに依然として苦労している。
拡散モデルはこの問題に対処するために3Dモデルと組み合わせられているが、複雑なマルチステップパイプラインのために効率が良くない。
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。
私たちのキーとなるアイデアは、ビューガイドによるワープを活用して、アダプティブアテンション操作とノイズリチベーションを可能にする、トレーニング不要な手法で拡散モデルを強化することである。
本手法は,新しいビューデータセットに適した包括的メトリック・フレームワークを通じて,様々な拡散モデル間でのビューの整合性を向上し,その適用性を示す。
関連論文リスト
- Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。