論文の概要: SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer
- arxiv url: http://arxiv.org/abs/2506.13465v1
- Date: Mon, 16 Jun 2025 13:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.494134
- Title: SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer
- Title(参考訳): SA-LUT:空間適応型4Dルックアップテーブル
- Authors: Zerui Gong, Zhonghua Wu, Qingyi Tao, Qinyue Li, Chen Change Loy,
- Abstract要約: フォトスタイル転送(PST)は、コンテンツ構造を保ちながら参照画像色を適応させることで、現実世界のカラーグレーディングを可能にする。
LUT効率とニューラルネットワーク適応性を組み合わせた空間適応型4Dルックアップテーブル(SA-LUT)を提案する。
実験により、SA-LUTは最先端の手法を大幅に上回り、LPIPSのスコアを3D LUTのアプローチと比べて66.7%低下させることが示された。
- 参考スコア(独自算出の注目度): 45.91755344464075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photorealistic style transfer (PST) enables real-world color grading by adapting reference image colors while preserving content structure. Existing methods mainly follow either approaches: generation-based methods that prioritize stylistic fidelity at the cost of content integrity and efficiency, or global color transformation methods such as LUT, which preserve structure but lack local adaptability. To bridge this gap, we propose Spatial Adaptive 4D Look-Up Table (SA-LUT), combining LUT efficiency with neural network adaptability. SA-LUT features: (1) a Style-guided 4D LUT Generator that extracts multi-scale features from the style image to predict a 4D LUT, and (2) a Context Generator using content-style cross-attention to produce a context map. This context map enables spatially-adaptive adjustments, allowing our 4D LUT to apply precise color transformations while preserving structural integrity. To establish a rigorous evaluation framework for photorealistic style transfer, we introduce PST50, the first benchmark specifically designed for PST assessment. Experiments demonstrate that SA-LUT substantially outperforms state-of-the-art methods, achieving a 66.7% reduction in LPIPS score compared to 3D LUT approaches, while maintaining real-time performance at 16 FPS for video stylization. Our code and benchmark are available at https://github.com/Ry3nG/SA-LUT
- Abstract(参考訳): フォトリアリスティック・スタイル・トランスファー(PST)は、コンテンツ構造を保ちながら参照画像色を適応させることにより、現実世界のカラーグレーディングを可能にする。
既存の手法は主に、コンテンツ整合性と効率を犠牲にしてスタイリスティックな忠実さを優先する生成法と、構造を保ちながら局所的な適応性に欠けるLUTのようなグローバルな色変換法のいずれかに従う。
このギャップを埋めるために、LUT効率とニューラルネットワーク適応性を組み合わせた空間適応型4Dルックアップテーブル(SA-LUT)を提案する。
SA-LUT の特徴は,(1) スタイル画像から多次元特徴を抽出して 4D LUT を予測するスタイル誘導 4D LUT ジェネレータ,(2) コンテントスタイルのクロスアテンションを用いてコンテキストマップを生成するコンテキストジェネレータである。
このコンテキストマップは空間適応的な調整を可能にし、4D LUTは構造的整合性を維持しながら正確な色変換を適用できる。
フォトリアリスティックなスタイル転送のための厳密な評価フレームワークを確立するため,PST50はPST評価に特化して設計された最初のベンチマークである。
実験により、SA-LUTは最先端の手法よりも大幅に優れており、3D LUTアプローチに比べてLPIPSスコアが66.7%低下し、ビデオスタイリングの16FPSでのリアルタイムパフォーマンスが維持された。
私たちのコードとベンチマークはhttps://github.com/Ry3nG/SA-LUTで公開されています。
関連論文リスト
- CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting [0.42881773214459123]
私たちはCLIPGaussiansを紹介した。CLIPGaussianは、複数のモダリティをまたいだテキストおよび画像誘導型スタイリングをサポートする最初の統一型スタイル転送フレームワークである。
本手法はガウスプリミティブを直接操作し,プラグインモジュールとして既存のGSパイプラインに統合する。
我々は,CLIPGaussianをマルチモーダルなスタイル転送のための汎用的で効率的な解として検証し,全てのタスクにおいて優れたスタイルの忠実さと一貫性を示す。
論文 参考訳(メタデータ) (2025-05-28T20:41:24Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Discovering an Image-Adaptive Coordinate System for Photography Processing [51.164345878060956]
曲線演算を行う前にRGB色空間における画像適応座標系を学習するための新しいアルゴリズム IAC を提案する。
このエンドツーエンドのトレーニング可能なアプローチにより、共同で学習した画像適応座標系と曲線を用いて、画像の効率よく調整できる。
論文 参考訳(メタデータ) (2025-01-11T06:20:07Z) - 4DStyleGaussian: Zero-shot 4D Style Transfer with Gaussian Splatting [15.456479631131522]
任意のスタイル参照のリアルタイムスタイリングを実現するための新しい4Dスタイル転送フレームワークである4DStyleGaussianを紹介する。
提案手法は,高効率・時空間整合性を有する4次元シナリオの高品質・ゼロショットスタイリングを実現する。
論文 参考訳(メタデータ) (2024-10-14T12:03:00Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。
テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。
提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - 4D LUT: Learnable Context-Aware 4D Lookup Table for Image Enhancement [50.49396123016185]
学習可能なコンテキスト対応4次元ルックアップテーブル(4D LUT)を提案する。
写真コンテキストを適応的に学習することで、各画像内の異なる内容のコンテンツ依存的な拡張を実現する。
従来の3D LUT、すなわちRGBへのRGBマッピングと比較して、4D LUTは画像ごとに異なる内容の画素の色変換をより細かく制御できる。
論文 参考訳(メタデータ) (2022-09-05T04:00:57Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。