論文の概要: CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2505.22854v1
- Date: Wed, 28 May 2025 20:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.531606
- Title: CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
- Title(参考訳): CLIPGaussian:Gaussian Splattingに基づくユニバーサルおよびマルチモーダルスタイルのトランスファー
- Authors: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek,
- Abstract要約: 私たちはCLIPGaussiansを紹介した。CLIPGaussianは、複数のモダリティをまたいだテキストおよび画像誘導型スタイリングをサポートする最初の統一型スタイル転送フレームワークである。
本手法はガウスプリミティブを直接操作し,プラグインモジュールとして既存のGSパイプラインに統合する。
我々は,CLIPGaussianをマルチモーダルなスタイル転送のための汎用的で効率的な解として検証し,全てのタスクにおいて優れたスタイルの忠実さと一貫性を示す。
- 参考スコア(独自算出の注目度): 0.42881773214459123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
- Abstract(参考訳): Gaussian Splatting (GS)は2D画像から3Dシーンをレンダリングするための効率的な表現として最近登場し、画像、ビデオ、動的4Dコンテンツに拡張されている。
しかし、GSベースの表現にスタイル転送を適用することは、特に単純な色の変化を超えて、依然として困難である。
本稿では,CLIPGaussianについて紹介する。CLIPGaussianは2D画像,ビデオ,3Dオブジェクト,4Dシーンなど,複数のモードにわたるテキストおよび画像誘導型スタイリングをサポートする,最初の統一型スタイル転送フレームワークである。
本手法はガウスのプリミティブを直接操作し,プラグインモジュールとして既存のGSパイプラインに統合する。
CLIPGaussianアプローチは、3Dおよび4D設定における色と幾何学の同時最適化を可能にし、モデルサイズを保ちながらビデオにおける時間的コヒーレンスを実現する。
我々は,CLIPGaussianをマルチモーダルなスタイル転送のための汎用的で効率的な解として検証し,全てのタスクにおいて優れたスタイルの忠実さと一貫性を示す。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Gaussian Billboards: Expressive 2D Gaussian Splatting with Textures [8.724367699416893]
2DGS(2DGS)と従来のコンピュータグラフィックスの看板との類似点を強調した。
本研究では,2DGSのテクスチャを用いて空間的に異なる色を付加するために,2DGSの修正を提案する。
本研究では,シーン表現のシャープさと質を,質的,定量的な評価で改善できることを示す。
論文 参考訳(メタデータ) (2024-12-17T09:57:04Z) - WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians [37.139479729087896]
We developed a new style transfer method for 3D scene called WaSt-3D。
トレーニングを必要とせずに、スタイルシーンからコンテンツシーンに詳細を忠実に転送する。
WaSt-3Dは、トレーニングを必要とせずに、さまざまなコンテンツやスタイルシーンに一貫して結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T15:02:50Z) - Hybrid Explicit Representation for Ultra-Realistic Head Avatars [55.829497543262214]
我々は,超現実的な頭部アバターを作成し,それをリアルタイムにレンダリングする新しい手法を提案する。
UVマップされた3Dメッシュは滑らかな表面のシャープでリッチなテクスチャを捉えるのに使われ、3Dガウス格子は複雑な幾何学構造を表現するために用いられる。
モデル化された結果が最先端のアプローチを上回る実験を行ないました。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting [141.05924680451804]
StyleGaussianは、新しい3Dスタイル転送技術である。
任意の画像のスタイルを毎秒10フレームの3Dシーンに即時転送できる(fps)。
論文 参考訳(メタデータ) (2024-03-12T16:44:52Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。