論文の概要: Appearance Harmonization via Bilateral Grid Prediction with Transformers for 3DGS
- arxiv url: http://arxiv.org/abs/2507.15748v1
- Date: Mon, 21 Jul 2025 16:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.471086
- Title: Appearance Harmonization via Bilateral Grid Prediction with Transformers for 3DGS
- Title(参考訳): 3DGS用変圧器を用いたバイラテラルグリッド予測による外観調和
- Authors: Jisu Shin, Richard Shaw, Seunghyun Shin, Anton Pelykh, Zhensong Zhang, Hae-Gon Jeon, Eduardo Perez-Pellitero,
- Abstract要約: カメラパイプラインは、露光調整、ホワイトバランス、色補正など、デバイス上の広範な処理を適用する。
これらの外観の違いは、複数ビューの一貫性に反し、新しいビュー合成の品質を低下させる。
シーン表現と画像毎の外観埋め込みの併用最適化はこの問題に対処するために提案されているが、計算複雑性の増大と訓練の遅さに代えて提案されている。
多視点一貫した方法で測光変動を補正するために、空間適応型二元格子を予測できる変圧器に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 17.21080750486132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern camera pipelines apply extensive on-device processing, such as exposure adjustment, white balance, and color correction, which, while beneficial individually, often introduce photometric inconsistencies across views. These appearance variations violate multi-view consistency and degrade the quality of novel view synthesis. Joint optimization of scene representations and per-image appearance embeddings has been proposed to address this issue, but at the cost of increased computational complexity and slower training. In this work, we propose a transformer-based method that predicts spatially adaptive bilateral grids to correct photometric variations in a multi-view consistent manner, enabling robust cross-scene generalization without the need for scene-specific retraining. By incorporating the learned grids into the 3D Gaussian Splatting pipeline, we improve reconstruction quality while maintaining high training efficiency. Extensive experiments show that our approach outperforms or matches existing scene-specific optimization methods in reconstruction fidelity and convergence speed.
- Abstract(参考訳): 現代のカメラパイプラインは、露光調整、ホワイトバランス、色補正などのデバイス上の広範な処理を適用している。
これらの外観の違いは、複数ビューの一貫性に反し、新しいビュー合成の品質を低下させる。
シーン表現と画像毎の外観埋め込みの併用最適化はこの問題に対処するために提案されているが、計算複雑性の増大と訓練の遅さに代えて提案されている。
本研究では,空間適応型二元格子を多視点一貫した方法で補正するトランスフォーマーに基づく手法を提案し,シーン固有のリトレーニングを必要とせず,堅牢なクロスシーンの一般化を実現する。
学習格子を3次元ガウススプラッティングパイプラインに組み込むことで,高い訓練効率を維持しながら再現性を向上させる。
大規模な実験により,提案手法は既存のシーン固有最適化手法よりも高い精度で再現率と収束速度を達成できた。
関連論文リスト
- RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。
写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。
提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T15:17:37Z) - Bilateral Guided Radiance Field Processing [4.816861458037213]
ニューラルラジアンス場(NeRF)は、新規なビュー合成の合成において、前例のない性能を達成する。
現代のカメラにおける画像信号処理(ISP)は、独立してそれらを強化し、再構成された放射場において「フローター」となる。
我々は、NeRFトレーニング段階におけるISPによる拡張を解消し、再構成されたラディアンスフィールドに対するユーザ希望の強化を再度適用することを提案する。
提案手法は,フロータを効果的に除去し,ユーザリタッチによる拡張を行うことにより,新規ビュー合成の視覚的品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-01T14:10:45Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。