論文の概要: CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction
- arxiv url: http://arxiv.org/abs/2507.15748v2
- Date: Mon, 29 Sep 2025 16:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.416406
- Title: CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction
- Title(参考訳): ChROMA:バイラテラルグリッド予測によるマルチビュー表示の一貫性調和
- Authors: Jisu Shin, Richard Shaw, Seunghyun Shin, Zhensong Zhang, Hae-Gon Jeon, Eduardo Perez-Pellitero,
- Abstract要約: カメラパイプラインは、露光調整、ホワイトバランス、色補正など、デバイス上の広範な処理を適用する。
外観の変化は複数ビューの一貫性に反し、新しいビュー合成を劣化させる。
多視点一貫した方法で測光変動を補正するために、空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。
- 参考スコア(独自算出の注目度): 30.088316989385106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern camera pipelines apply extensive on-device processing, such as exposure adjustment, white balance, and color correction, which, while beneficial individually, often introduce photometric inconsistencies across views. These appearance variations violate multi-view consistency and degrade novel view synthesis. Joint optimization of scene-specific representations and per-image appearance embeddings has been proposed to address this issue, but with increased computational complexity and slower training. In this work, we propose a generalizable, feed-forward approach that predicts spatially adaptive bilateral grids to correct photometric variations in a multi-view consistent manner. Our model processes hundreds of frames in a single step, enabling efficient large-scale harmonization, and seamlessly integrates into downstream 3D reconstruction models, providing cross-scene generalization without requiring scene-specific retraining. To overcome the lack of paired data, we employ a hybrid self-supervised rendering loss leveraging 3D foundation models, improving generalization to real-world variations. Extensive experiments show that our approach outperforms or matches the reconstruction quality of existing scene-specific optimization methods with appearance modeling, without significantly affecting the training time of baseline 3D models.
- Abstract(参考訳): 現代のカメラパイプラインは、露光調整、ホワイトバランス、色補正などのデバイス上の広範な処理を適用している。
これらの外観の変化は、多視点の一貫性に反し、新規なビュー合成を劣化させる。
シーン固有の表現と画像ごとの外観埋め込みの併用最適化はこの問題に対処するために提案されているが、計算複雑性が増大し、訓練が遅くなっている。
本研究では,多視点一貫した方法で測光変動を補正するために,空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。
我々のモデルは1ステップで数百フレームを処理し、大規模調和を効果的に実現し、下流3次元再構成モデルにシームレスに統合し、シーン固有のリトレーニングを必要とせずにクロスシーンの一般化を提供する。
組合わせデータの欠如を克服するために,3次元基礎モデルを利用したハイブリッドな自己教師付きレンダリング損失を導入し,実世界の変動に対する一般化を改善した。
大規模実験の結果,既存のシーン固有最適化手法と外観モデルとの再現性は,ベースライン3Dモデルのトレーニング時間に大きく影響しないことがわかった。
関連論文リスト
- RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。
写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。
提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T15:17:37Z) - Bilateral Guided Radiance Field Processing [4.816861458037213]
ニューラルラジアンス場(NeRF)は、新規なビュー合成の合成において、前例のない性能を達成する。
現代のカメラにおける画像信号処理(ISP)は、独立してそれらを強化し、再構成された放射場において「フローター」となる。
我々は、NeRFトレーニング段階におけるISPによる拡張を解消し、再構成されたラディアンスフィールドに対するユーザ希望の強化を再度適用することを提案する。
提案手法は,フロータを効果的に除去し,ユーザリタッチによる拡張を行うことにより,新規ビュー合成の視覚的品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-01T14:10:45Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。