Fugu-MT 論文翻訳(概要): SimVS: Simulating World Inconsistencies for Robust View Synthesis

論文の概要: SimVS: Simulating World Inconsistencies for Robust View Synthesis

arxiv url: http://arxiv.org/abs/2412.07696v1
Date: Tue, 10 Dec 2024 17:35:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.45289
Title: SimVS: Simulating World Inconsistencies for Robust View Synthesis
Title（参考訳）: SimVS:ロバストビュー合成のための世界不整合のシミュレーション
Authors: Alex Trevithick, Roni Paiss, Philipp Henzler, Dor Verbin, Rundi Wu, Hadi Alzayer, Ruiqi Gao, Ben Poole, Jonathan T. Barron, Aleksander Holynski, Ravi Ramamoorthi, Pratul P. Srinivasan,
Abstract要約: 本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
参考スコア（独自算出の注目度）: 102.83898965828621
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Novel-view synthesis techniques achieve impressive results for static scenes but struggle when faced with the inconsistencies inherent to casual capture settings: varying illumination, scene motion, and other unintended effects that are difficult to model explicitly. We present an approach for leveraging generative video models to simulate the inconsistencies in the world that can occur during capture. We use this process, along with existing multi-view datasets, to create synthetic data for training a multi-view harmonization network that is able to reconcile inconsistent observations into a consistent 3D scene. We demonstrate that our world-simulation strategy significantly outperforms traditional augmentation methods in handling real-world scene variations, thereby enabling highly accurate static 3D reconstructions in the presence of a variety of challenging inconsistencies. Project page: https://alextrevithick.github.io/simvs
Abstract（参考訳）: 新たなビュー合成技術は、静的なシーンに対して印象的な結果を得るが、カジュアルなキャプチャ設定に固有の不整合(照明の変化、シーンの動き、そして明確にモデル化するのが難しい意図しない効果)に直面したときに苦労する。本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。このプロセスは、既存のマルチビューデータセットとともに、一貫性のない観測結果を一貫した3Dシーンに再構成できるマルチビュー調和ネットワークをトレーニングするための合成データを作成する。我々の世界シミュレーション戦略は、現実のシーンの変動を扱う従来の拡張手法よりも大幅に優れており、様々な難易度のある不整合の存在下で高精度な静的3D再構成を可能にすることを実証する。プロジェクトページ: https://alextrevithick.github.io/simvs

関連論文リスト

DBMovi-GS: Dynamic View Synthesis from Blurry Monocular Video via Sparse-Controlled Gaussian Splatting [20.85857280726324]
スパース制御ガウススプラッティング(DBMovi-GS)によるBlurry Monocular Videoからのモーション対応動的ビュー合成を提案する。本モデルは,ダイナミックなぼやけたシーン下での新規ビュー合成におけるロバストな性能を実現し,ぼやけたモノクロビデオ入力のためのリアルな新規ビュー合成における新しいベンチマークを設定する。
論文参考訳（メタデータ） (2025-06-26T04:28:48Z)
Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-12-15T05:57:36Z)
View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文参考訳（メタデータ） (2024-09-05T16:39:21Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Modeling Ambient Scene Dynamics for Free-view Synthesis [31.233859111566613]
モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。
論文参考訳（メタデータ） (2024-06-13T17:59:11Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文参考訳（メタデータ） (2022-03-20T13:06:15Z)
Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文参考訳（メタデータ） (2021-08-30T17:55:28Z)
PixelSynth: Generating a 3D-Consistent Experience from a Single Image [30.64117903216323]
本稿では, 自己回帰モデルを用いて3次元推論を融合させ, 大規模視界変化を3次元連続的に表現する手法を提案する。本研究では,多種多様な方法と可能な変種と比較して,単一画像大角ビュー合成結果の大幅な改善を示す。
論文参考訳（メタデータ） (2021-08-12T17:59:31Z)
Long-Term Temporally Consistent Unpaired Video Translation from Simulated Surgical 3D Data [0.059110875077162096]
本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。グローバル学習可能なテクスチャと照明不変のビューコンシスタンス損失を導入することにより,任意のビューの一貫した翻訳を生成する。既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。
論文参考訳（メタデータ） (2021-03-31T16:31:26Z)
Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文参考訳（メタデータ） (2020-07-01T08:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。