論文の概要: Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training
- arxiv url: http://arxiv.org/abs/2502.18219v1
- Date: Tue, 25 Feb 2025 14:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:11.538062
- Title: Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training
- Title(参考訳): 再トレーニングを伴わない3次元極性アテンションによる一貫性のある新しい視点の合成
- Authors: Botao Ye, Sifei Liu, Xueting Li, Marc Pollefeys, Ming-Hsuan Yang,
- Abstract要約: 大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
- 参考スコア(独自算出の注目度): 102.82553402539139
- License:
- Abstract: Large diffusion models demonstrate remarkable zero-shot capabilities in novel view synthesis from a single image. However, these models often face challenges in maintaining consistency across novel and reference views. A crucial factor leading to this issue is the limited utilization of contextual information from reference views. Specifically, when there is an overlap in the viewing frustum between two views, it is essential to ensure that the corresponding regions maintain consistency in both geometry and appearance. This observation leads to a simple yet effective approach, where we propose to use epipolar geometry to locate and retrieve overlapping information from the input view. This information is then incorporated into the generation of target views, eliminating the need for training or fine-tuning, as the process requires no learnable parameters. Furthermore, to enhance the overall consistency of generated views, we extend the utilization of epipolar attention to a multi-view setting, allowing retrieval of overlapping information from the input view and other target views. Qualitative and quantitative experimental results demonstrate the effectiveness of our method in significantly improving the consistency of synthesized views without the need for any fine-tuning. Moreover, This enhancement also boosts the performance of downstream applications such as 3D reconstruction. The code is available at https://github.com/botaoye/ConsisSyn.
- Abstract(参考訳): 大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
しかしながら、これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
この問題に繋がる重要な要因は、参照ビューからのコンテキスト情報の限定的利用である。
具体的には、2つのビューの視線が重なり合う場合、対応する領域が幾何学的にも外観的にも整合性を維持することが不可欠である。
本研究では, 重なり合う情報を入力ビューから探索し, 抽出するために, エピポーラ幾何を用いる方法を提案する。
この情報はターゲットビューの生成に組み込まれ、学習可能なパラメータを必要としないため、トレーニングや微調整の必要がなくなる。
さらに、生成したビューの全体的整合性を高めるため、マルチビュー設定へのエピポーラアテンションの利用を拡大し、入力ビューや他のターゲットビューから重なり合う情報の検索を可能にする。
定性的かつ定量的な実験結果から,微調整を必要とせず,合成されたビューの一貫性を著しく向上させる手法の有効性が示された。
さらに、この拡張により、3D再構成のような下流アプリケーションの性能も向上する。
コードはhttps://github.com/botaoye/ConsisSynで入手できる。
関連論文リスト
- Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Zero-to-Hero: Enhancing Zero-Shot Novel View Synthesis via Attention Map Filtering [16.382098950820822]
我々は、注目マップを操作することでビュー合成を強化する新しいテストタイムアプローチであるZero-to-Heroを提案する。
我々は、ソースビューからの情報を統合するために自己認識機構を変更し、形状歪みを低減する。
結果は、分散オブジェクトの多様なセットで検証された、忠実性と一貫性の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-29T00:58:22Z) - CMC: Few-shot Novel View Synthesis via Cross-view Multiplane Consistency [18.101763989542828]
本稿では,入力ビュー間の奥行き認識一貫性を明確かつ効果的に構築する手法を提案する。
我々の重要な洞察は、同じ空間点を異なる入力ビューで繰り返しサンプリングすることで、ビュー間の相互作用を強化することができるということである。
単純かつ広範な実験により,提案手法は最先端の手法よりも優れた合成品質が得られることを示した。
論文 参考訳(メタデータ) (2024-02-26T09:04:04Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - 3D Shape Reconstruction from Vision and Touch [62.59044232597045]
3次元形状再構成では、視覚と触覚の相補的な融合はほとんど未解明のままである。
本稿では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを提案する。
論文 参考訳(メタデータ) (2020-07-07T20:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。