論文の概要: UniFixer: A Universal Reference-Guided Fixer for Diffusion-Based View Synthesis
- arxiv url: http://arxiv.org/abs/2605.12169v1
- Date: Tue, 12 May 2026 14:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.912541
- Title: UniFixer: A Universal Reference-Guided Fixer for Diffusion-Based View Synthesis
- Title(参考訳): UniFixer: 拡散に基づくビュー合成のためのユニバーサルリファレンスガイド固定器
- Authors: Sihan Chen, Xiang Zhang, Yang Zhang, Tunc Aydin, Christopher Schroers,
- Abstract要約: 本稿では,粗大な戦略によって多種多様な劣化物を修正できる共通参照誘導フレームワークを提案する。
当社のUniFixerは,様々な種類の拡散劣化に対するゼロショット修正を実現するプラグイン・アンド・プレイ・リファインダとして機能する。
- 参考スコア(独自算出の注目度): 19.306551934131335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent surge of generative models, diffusion-based approaches have become mainstream for view synthesis tasks, either in an explicit depth-warp-inpaint or in an implicit end-to-end manner. Despite their success, both paradigms often suffer from noticeable quality degradation, e.g., blurred details and distorted structures, caused by pixel-to-latent compression and diffusion hallucination. In this paper, we investigate diffusion degradation from three key dimensions (i.e., spatial, temporal, and backbone-related) and propose UniFixer, a universal reference-guided framework that fixes diverse degradation artifacts via a coarse-to-fine strategy. Specifically, a reference pre-alignment module is first designed to perform coarse alignment between the reference view and the degraded novel view. A global structure anchoring mechanism then rectifies geometric distortions to ensure structural fidelity, followed by a local detail injection module that recovers fine-grained texture details for high-quality view synthesis. Our UniFixer serves as a plug-and-play refiner that achieves zero-shot fixing across different types of diffusion degradation, and extensive experiments verify our state-of-the-art performance on novel view synthesis and stereo conversion.
- Abstract(参考訳): 最近の生成モデルの増加に伴い、拡散に基づくアプローチは、明示的な深度ワープ・インペントや暗黙的なエンドツーエンドのいずれにおいても、ビュー合成タスクにおいて主流になっている。
その成功にもかかわらず、両パラダイムはしばしば、ピクセル間圧縮と拡散幻覚によって引き起こされる、ぼやけた細部や歪んだ構造といった、目立った品質劣化に悩まされる。
本稿では,3つの鍵次元(空間的,時間的,背骨的)からの拡散劣化について検討し,粗大な戦略によって多種多様な分解物を修正する汎用的な参照誘導フレームワークUniFixerを提案する。
具体的には、参照事前調整モジュールをまず、参照ビューと劣化した新規ビューとの間に粗いアライメントを行うように設計する。
グローバルな構造アンカー機構は、幾何学的歪みを補正して構造的忠実性を確保し、続いて、高品質なビュー合成のためのきめ細かいテクスチャを復元する局所的な詳細注入モジュールを伴う。
我々のUniFixerは、様々な種類の拡散劣化に対するゼロショット修正を実現するプラグイン・アンド・プレイ・リファインダーとして機能し、新しいビュー合成とステレオ変換における最先端の性能を検証する。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model [50.93869080795228]
3Dシーンを再構築し、スパースインプットビューから新しいビューを合成することは、非常に難しい作業である。
ビデオ拡散モデルの最近の進歩は、強い時間的推論能力を示している。
点条件付きビデオ拡散によるスパース入力からのクローズアップ新規ビュー合成のための拡散に基づくフレームワークであるCloseUpShotを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:20:06Z) - Visual-Instructed Degradation Diffusion for All-in-One Image Restoration [29.910376294021052]
視覚指導誘導劣化拡散を利用したオールインワン画像復元フレームワークである textbfDefusion を提案する。
Defusionは複雑な画像復元タスクや実世界の劣化など、さまざまな画像復元タスクにおいて、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-20T12:50:42Z) - Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion [15.244909728255417]
SplatDiffは1枚の画像から高忠実度ノベルビューを合成するために設計された画素分割誘導映像拡散モデルである。
テクスチャの幻覚を軽減するために,適応的特徴融合による高忠実度テクスチャ生成を可能にするテクスチャブリッジモジュールを設計する。
SplatDiffは、スパースビューのNVSやステレオビデオ変換など、様々なタスクで顕著なゼロショット性能を示す。
論文 参考訳(メタデータ) (2025-02-18T11:13:06Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Single Image Reflection Separation via Component Synergy [14.57590565534889]
反射重畳現象は複雑で、現実世界に広く分布している。
学習可能な残余項を導入することにより、重ね合わせモデルのより一般的な形式を提案する。
その利点をフルに活用するために,ネットワーク構造をさらに精巧に設計する。
論文 参考訳(メタデータ) (2023-08-19T14:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。