論文の概要: Voxify3D: Pixel Art Meets Volumetric Rendering
- arxiv url: http://arxiv.org/abs/2512.07834v1
- Date: Mon, 08 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.030638
- Title: Voxify3D: Pixel Art Meets Volumetric Rendering
- Title(参考訳): Voxify3D:Pixel Artがボリュームレンダリングに対応
- Authors: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu,
- Abstract要約: Voxify3Dは、2Dピクセルアート監視を備えた3Dメッシュ最適化をブリッジ可能な2段階フレームワークである。
我々の中心となる革新は3つのコンポーネントのシナジスティックな統合にある: (1) 正確なボクセル・ピクセルアライメントのための視点歪みを除去する正書法画素アートインスペクション; (2) 離散化レベルを越えたセマンティクスを保存するパッチベースのCLIPアライメント; (3) パレット制約のGumbel-Softmax量子化により、制御可能なパレット戦略による離散色空間上の微分可能な最適化を実現する。
- 参考スコア(独自算出の注目度): 5.989543787005548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/
- Abstract(参考訳): ボクセルアート(Voxel art)は、ゲームやデジタルメディアで広く使われている独特なスタイル化であるが、3Dメッシュからの自動生成は、幾何学的抽象化、セマンティック保存、離散カラーコヒーレンスといった要求の相違により、依然として困難である。
既存の手法は、幾何を単純化しすぎるか、あるいは、ボクセル芸術のピクセル精度でパレットに制約された美学を達成できないかのいずれかである。
本稿では,Voxify3Dを紹介した。これは2Dピクセルアートの監督を伴う3Dメッシュ最適化をブリッジ可能な2段階フレームワークである。
我々の中心となる革新は3つのコンポーネントのシナジスティックな統合にある: (1) 正確なボクセル・ピクセルアライメントのための視点歪みを除去する正書法画素アートインスペクション; (2) 離散化レベルを越えたセマンティクスを保存するパッチベースのCLIPアライメント; (3) パレット制約のGumbel-Softmax量子化により、制御可能なパレット戦略による離散色空間上の微分可能な最適化を実現する。
この統合は、極端な離散化の下での意味保存、ボリュームレンダリングによるピクセルアートの美学、エンドツーエンドの離散最適化といった基本的な課題に対処する。
実験では、様々な文字にまたがる優れた性能(37.12 CLIP-IQA, 77.90\%のユーザ嗜好)と制御可能な抽象化(2-8色、20x-50x解像度)を示す。
プロジェクトページ:https://yichuanh.github.io/Voxify-3D/
関連論文リスト
- DiGA3D: Coarse-to-Fine Diffusional Propagation of Geometry and Appearance for Versatile 3D Inpainting [10.515239541326737]
単一の参照インペインティングメソッドは、参照ビューから離れたビューを扱う場合、堅牢性に欠ける。
出現不整合は、独立に2次元拡散先行のマルチビュー画像に着色するときに生じる。
DiGA3Dは拡散モデルを用いて、一貫した外観と幾何学を粗い方法で伝播する。
論文 参考訳(メタデータ) (2025-07-01T04:57:08Z) - Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。
本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。
ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文 参考訳(メタデータ) (2025-04-23T06:21:11Z) - StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians [23.1385740508835]
StyleMe3Dは3D GSスタイルの転送のための総合的なフレームワークである。
マルチモーダルスタイルのコンディショニング、マルチレベルセマンティックアライメント、知覚的品質向上を統合している。
この作品は、フォトリアリスティックな3D GSと芸術的なスタイリング、ゲーム、バーチャルワールド、デジタルアートのアンロックを橋渡しする。
論文 参考訳(メタデータ) (2025-04-21T17:59:55Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。
テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。
提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - Neural 3D Strokes: Creating Stylized 3D Scenes with Vectorized 3D
Strokes [20.340259111585873]
ニューラル3Dストロークス(Neural 3D Strokes)は、多視点2D画像から任意の新しいビューで3Dシーンのスタイリング画像を生成する新しい技術である。
提案手法は,ベクトルストロークによる人間のアートワークのプログレッシブ・ペインティングの過程をシミュレートし,イメージ・ツー・ペインティング法からインスピレーションを得ている。
論文 参考訳(メタデータ) (2023-11-27T09:02:21Z) - DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields [96.0858117473902]
3Dトーン化には、テクスチャ化された幾何学とテクスチャで、アートドメインのスタイルをターゲットの3D顔に転送することが含まれる。
階層型3D GANに適した効果的なトーン化フレームワークであるDeformToon3Dを提案する。
提案手法は3次元トーン化を幾何学とテクスチャスタイリングのサブプロブレムに分解し,元の潜伏空間をよりよく保存する。
論文 参考訳(メタデータ) (2023-09-08T16:17:45Z) - StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image
Synthesis [92.25145204543904]
StyleNeRFは高解像度画像合成のための3次元認識型生成モデルである。
ニューラル放射場(NeRF)をスタイルベースジェネレータに統合する。
高品質な3D一貫性を維持しながら、対話的な速度で高解像度画像を合成することができる。
論文 参考訳(メタデータ) (2021-10-18T02:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。