Fugu-MT 論文翻訳(概要): SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

論文の概要: SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

arxiv url: http://arxiv.org/abs/2411.16443v1
Date: Mon, 25 Nov 2024 14:46:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.839428
Title: SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
Title（参考訳）: SplatFlow:3次元ガウス平滑化合成のための多視点整流モデル
Authors: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim,
Abstract要約: SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。 SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
参考スコア（独自算出の注目度）: 19.351291267779416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based generation and editing of 3D scenes hold significant potential for streamlining content creation through intuitive user interactions. While recent advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time rendering, existing methods are often specialized and task-focused, lacking a unified framework for both generation and editing. In this paper, we introduce SplatFlow, a comprehensive framework that addresses this gap by enabling direct 3DGS generation and editing. SplatFlow comprises two main components: a multi-view rectified flow (RF) model and a Gaussian Splatting Decoder (GSDecoder). The multi-view RF model operates in latent space, generating multi-view images, depths, and camera poses simultaneously, conditioned on text prompts, thus addressing challenges like diverse scene scales and complex camera trajectories in real-world settings. Then, the GSDecoder efficiently translates these latent outputs into 3DGS representations through a feed-forward 3DGS method. Leveraging training-free inversion and inpainting techniques, SplatFlow enables seamless 3DGS editing and supports a broad range of 3D tasks-including object editing, novel view synthesis, and camera pose estimation-within a unified framework without requiring additional complex pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K datasets, demonstrating its versatility and effectiveness in various 3D generation, editing, and inpainting-based tasks.
Abstract（参考訳）: テキストベースの3Dシーンの生成と編集は、直感的なユーザインタラクションを通じてコンテンツ生成を合理化する大きな可能性を秘めている。最近の進歩は高忠実かつリアルタイムなレンダリングに3D Gaussian Splatting (3DGS)を活用しているが、既存の手法は特殊化されタスク中心であり、生成と編集の両方に統一的なフレームワークが欠如している。本稿では,3DGSの直接生成と編集を可能にすることで,このギャップに対処する包括的なフレームワークであるSplatFlowを紹介する。 SplatFlowの主なコンポーネントは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)である。マルチビューRFモデルは遅延空間で動作し、マルチビュー画像、深度、カメラのポーズを同時に生成し、テキストプロンプトに条件付けすることで、様々なシーンスケールや現実世界の設定における複雑なカメラ軌跡といった課題に対処する。そして、GSDecoderはフィードフォワード3DGS法により、これらの潜伏出力を3DGS表現に効率的に変換する。 SplatFlowは、トレーニング不要のインバージョンとインペイント技術を活用することで、シームレスな3DGS編集を可能にし、複雑なパイプラインを必要とせずに、オブジェクト編集、新しいビュー合成、カメラポーズ推定を含む幅広い3Dタスクをサポートする。我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。

関連論文リスト

GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting [17.17292309504131]
GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
論文参考訳（メタデータ） (2025-04-14T09:04:01Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文参考訳（メタデータ） (2024-12-26T09:54:25Z)
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting [3.9006270555948133]
MFG(Multi-view Fusion Guidance)とAGT(Attention-Guided Trimming)を統合したテキスト駆動3Dシーン編集フレームワークEditSplatを提案する。我々のMFGは、拡散過程に不可欠な多視点情報を組み込むことにより、多視点整合性を確保する。我々のAGTは、3DGSの明示的な表現を利用して、3Dガウスを選択的にプーンし、最適化し、最適化効率を向上し、正確で意味的にリッチな局所的な編集を可能にする。
論文参考訳（メタデータ） (2024-12-16T07:56:04Z)
World-consistent Video Diffusion with Explicit 3D Modeling [67.39618291644673]
World-Consistent Video Diffusion (WVD)は、XYZ画像を用いた明示的な3D監視を含む新しいフレームワークである。我々は拡散変換器を訓練し、RGBとXYZフレームの結合分布を学習する。 WVDは、シングルイメージから3D生成、マルチビューステレオ、カメラ制御ビデオ生成といったタスクを統一する。
論文参考訳（メタデータ） (2024-12-02T18:58:23Z)
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes [87.01284850604495]
多視点画像から幾何学的に有意な放射場をモデル化するためのプリミティブとして3次元滑らかな凸を利用した3次元凸法(3DCS)を提案する。 3DCSは、MipNeizer, Tanks and Temples, Deep Blendingなどのベンチマークで、3DGSよりも優れたパフォーマンスを実現している。本結果は,高品質なシーン再構築のための新しい標準となる3Dコンベクシングの可能性を強調した。
論文参考訳（メタデータ） (2024-11-22T14:31:39Z)
SplatFormer: Point Transformer for Robust 3D Gaussian Splatting [18.911307036504827]
3D Gaussian Splatting (3DGS) は、近ごろ光現実的再構成を変換し、高い視覚的忠実度とリアルタイム性能を実現した。レンダリング品質は、テストビューがトレーニング中に使用されるカメラアングルから逸脱したときに著しく低下し、没入型自由視点レンダリングとナビゲーションのアプリケーションにとって大きな課題となった。 SplatFormerは,ガウススプラット上での操作に特化して設計された最初の点変換器モデルである。我々のモデルは、非常に斬新なビュー下でのレンダリング品質を著しく改善し、これらの難易度シナリオにおける最先端のパフォーマンスを達成し、様々な3DGS正規化技術、スパースビュー合成に適したマルチシーンモデル、拡散を上回ります。
論文参考訳（メタデータ） (2024-11-10T08:23:27Z)
Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis [25.924727931514735]
一般化可能な3DGSは、フィードフォワード推論方式でスパースビュー観測から新しいシーンを再構築することができる。既存の手法は、複雑な現実世界のシーンでは信頼できないエピポーラ先行に大きく依存している。一般化可能な新規ビュー合成のための効率的なフィードフォワード3DGSモデルであるeFreeSplatを提案する。
論文参考訳（メタデータ） (2024-10-30T08:51:29Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-06-04T15:17:37Z)
FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-05-28T08:40:14Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文参考訳（メタデータ） (2024-03-18T15:22:09Z)
Recent Advances in 3D Gaussian Splatting [31.3820273122585]
3次元ガウススプラッティングは、新規なビュー合成のレンダリング速度を大幅に高速化した。 3D Gaussian Splattingの明示的な表現は、動的再構成、幾何学的編集、物理シミュレーションなどの編集作業を容易にする。本稿では,3次元再構成,3次元編集,その他の下流アプリケーションに大まかに分類できる最近の3次元ガウス散乱法について,文献的考察を行う。
論文参考訳（メタデータ） (2024-03-17T07:57:08Z)
SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting [86.50200613220674]
3Dベースのインタラクティブ編集における重要な課題は、与えられたメモリ制約の下で様々な修正と高品質なビュー合成のバランスをとる効率的な表現がないことである。 SplatMeshは,3次元ガウススプラッティングと事前計算メッシュを統合した,対話型3Dセグメンテーション・編集アルゴリズムである。単純化されたメッシュのセグメンテーションと編集により、ガウススプレートの編集も効果的に行えます。
論文参考訳（メタデータ） (2023-12-26T02:50:42Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。