論文の概要: SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2602.20079v1
- Date: Mon, 23 Feb 2026 17:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.932491
- Title: SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis
- Title(参考訳): SemanticNVS: 生成的新規ビュー合成におけるセマンティックシーン理解の改善
- Authors: Xinya Chen, Christopher Wewer, Jiahao Xie, Xinting Hu, Jan Eric Lenssen,
- Abstract要約: 新規ビュー合成のためのカメラ条件付き多視点拡散モデルSemanticNVSを提案する。
既存のNVS法は、長距離カメラ動作下で意味的に不明瞭で歪んだ画像を生成する。
遠隔地でも高品質なシーンセマンティクスを実現するための条件付けとして,事前学習型セマンティクス抽出器を統合することを提案する。
- 参考スコア(独自算出の注目度): 25.524477911101325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SemanticNVS, a camera-conditioned multi-view diffusion model for novel view synthesis (NVS), which improves generation quality and consistency by integrating pre-trained semantic feature extractors. Existing NVS methods perform well for views near the input view, however, they tend to generate semantically implausible and distorted images under long-range camera motion, revealing severe degradation. We speculate that this degradation is due to current models failing to fully understand their conditioning or intermediate generated scene content. Here, we propose to integrate pre-trained semantic feature extractors to incorporate stronger scene semantics as conditioning to achieve high-quality generation even at distant viewpoints. We investigate two different strategies, (1) warped semantic features and (2) an alternating scheme of understanding and generation at each denoising step. Experimental results on multiple datasets demonstrate the clear qualitative and quantitative (4.69%-15.26% in FID) improvement over state-of-the-art alternatives.
- Abstract(参考訳): 本稿では,新しいビュー合成(NVS)のためのカメラ条件付き多視点拡散モデルであるSemanticNVSについて述べる。
既存のNVS手法は、入力ビュー近傍のビューに対して良好に機能するが、長距離カメラ動作下で意味的に不明瞭で歪んだ画像を生成する傾向があり、深刻な劣化を呈する。
この劣化は、現在のモデルが条件付けや中間生成シーンの内容を完全に理解できないためであると推測する。
そこで本研究では,事前学習型セマンティック特徴抽出器を統合し,より強力なシーンセマンティクスを条件付けとして組み込んで,遠隔視点においても高品質な生成を実現することを提案する。
本研究は,(1)意味的特徴の歪曲と(2)各認知段階における理解と生成の交互スキームの2つの異なる戦略について検討する。
複数のデータセットの実験結果は、最先端の代替品よりも明確な質的かつ定量的な(FIDの4.69%-15.26%)改善を示している。
関連論文リスト
- AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation [48.47444428530136]
テキスト誘導画像・ビデオ(TI2V)生成は、特に被験者の一貫性と時間的コヒーレンスを維持する上で、近年顕著な進歩を遂げている。
既存の手法は、特に入力画像の実質的な変換が必要な場合、微細なプロンプトセマンティクスに固執するのに依然として苦労している。
ASM(Attention Scaling Modulation)とGS(Guidance Scheduling)の2つのコンポーネントを備えた、トレーニング不要のフレームワークであるAlignVidを紹介した。
論文 参考訳(メタデータ) (2025-12-01T06:53:48Z) - CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model [50.93869080795228]
3Dシーンを再構築し、スパースインプットビューから新しいビューを合成することは、非常に難しい作業である。
ビデオ拡散モデルの最近の進歩は、強い時間的推論能力を示している。
点条件付きビデオ拡散によるスパース入力からのクローズアップ新規ビュー合成のための拡散に基づくフレームワークであるCloseUpShotを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:20:06Z) - VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis [23.50866105623598]
本稿では,ノイズレベルと潜時レベルの両方で2つの入力画像を統合することで,単一のコヒーレントオブジェクトを合成する拡散ベースフレームワークを提案する。
本手法は, 視覚的品質, 意味的整合性, 人格的創造性において, 高いベースラインを達成している。
論文 参考訳(メタデータ) (2025-09-28T03:17:58Z) - SFLD: Reducing the content bias for AI-generated Image Detection [23.152346805893373]
新たなアプローチであるSFLDでは、高レベルの意味情報と低レベルのテクスチャ情報を統合するためにPatchShuffleが組み込まれている。
現在のベンチマークでは、画像品質の低下、コンテンツ保存の不十分、クラス多様性の制限といった課題に直面している。
そこで本研究では,実画像と合成画像のほぼ同一のペアを視覚的に構築するベンチマーク生成手法であるTwin Synthsを紹介する。
論文 参考訳(メタデータ) (2025-02-24T12:38:34Z) - NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-04T17:58:03Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。