Fugu-MT 論文翻訳(概要): CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction

論文の概要: CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction

arxiv url: http://arxiv.org/abs/2507.15748v2
Date: Mon, 29 Sep 2025 16:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 14:13:47.416406
Title: CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction
Title（参考訳）: ChROMA:バイラテラルグリッド予測によるマルチビュー表示の一貫性調和
Authors: Jisu Shin, Richard Shaw, Seunghyun Shin, Zhensong Zhang, Hae-Gon Jeon, Eduardo Perez-Pellitero,
Abstract要約: カメラパイプラインは、露光調整、ホワイトバランス、色補正など、デバイス上の広範な処理を適用する。外観の変化は複数ビューの一貫性に反し、新しいビュー合成を劣化させる。多視点一貫した方法で測光変動を補正するために、空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。
参考スコア（独自算出の注目度）: 30.088316989385106
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Modern camera pipelines apply extensive on-device processing, such as exposure adjustment, white balance, and color correction, which, while beneficial individually, often introduce photometric inconsistencies across views. These appearance variations violate multi-view consistency and degrade novel view synthesis. Joint optimization of scene-specific representations and per-image appearance embeddings has been proposed to address this issue, but with increased computational complexity and slower training. In this work, we propose a generalizable, feed-forward approach that predicts spatially adaptive bilateral grids to correct photometric variations in a multi-view consistent manner. Our model processes hundreds of frames in a single step, enabling efficient large-scale harmonization, and seamlessly integrates into downstream 3D reconstruction models, providing cross-scene generalization without requiring scene-specific retraining. To overcome the lack of paired data, we employ a hybrid self-supervised rendering loss leveraging 3D foundation models, improving generalization to real-world variations. Extensive experiments show that our approach outperforms or matches the reconstruction quality of existing scene-specific optimization methods with appearance modeling, without significantly affecting the training time of baseline 3D models.
Abstract（参考訳）: 現代のカメラパイプラインは、露光調整、ホワイトバランス、色補正などのデバイス上の広範な処理を適用している。これらの外観の変化は、多視点の一貫性に反し、新規なビュー合成を劣化させる。シーン固有の表現と画像ごとの外観埋め込みの併用最適化はこの問題に対処するために提案されているが、計算複雑性が増大し、訓練が遅くなっている。本研究では,多視点一貫した方法で測光変動を補正するために,空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。我々のモデルは1ステップで数百フレームを処理し、大規模調和を効果的に実現し、下流3次元再構成モデルにシームレスに統合し、シーン固有のリトレーニングを必要とせずにクロスシーンの一般化を提供する。組合わせデータの欠如を克服するために,3次元基礎モデルを利用したハイブリッドな自己教師付きレンダリング損失を導入し,実世界の変動に対する一般化を改善した。大規模実験の結果,既存のシーン固有最適化手法と外観モデルとの再現性は,ベースライン3Dモデルのトレーニング時間に大きく影響しないことがわかった。

関連論文リスト

Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis [73.27997579020233]
多様な照明条件下での堅牢なNVSのための3DGSベースのフレームワークであるLuminance-GS++を提案する。本手法は,グローバルな視野適応光度調整と局所画素ワイド残差補正を組み合わせ,正確な色補正を行う。
論文参考訳（メタデータ） (2026-02-20T16:20:50Z)
Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文参考訳（メタデータ） (2025-11-24T01:13:51Z)
RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。 RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文参考訳（メタデータ） (2025-08-05T04:50:29Z)
RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors [13.883695200241524]
RI3Dは拡散モデルのパワーを生かした新しい手法であり、入力画像のスパースセットが与えられた場合、高品質な新規ビューを再構築する。我々の重要な貢献は、ビュー合成プロセスを可視領域を再構築し、行方不明領域を幻覚させる2つのタスクに分けることである。我々は、様々な場面において最先端のアプローチよりも優れた、目に見える領域と欠落する領域の両方で、詳細なテクスチャで結果を生成する。
論文参考訳（メタデータ） (2025-03-13T20:16:58Z)
Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文参考訳（メタデータ） (2025-03-02T12:51:38Z)
ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization [5.55656676725821]
我々はConsistentDreamerを紹介し、まず、固定された複数ビュー前の画像とそれらの間のランダムなビューの集合を生成する。これにより、SDSの損失によって導かれるビュー間の相違を抑え、一貫した粗い形状を確保する。各イテレーションでは、生成した複数ビュー前の画像も詳細再構築に使用しています。
論文参考訳（メタデータ） (2025-02-13T12:49:25Z)
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文参考訳（メタデータ） (2024-08-26T12:10:52Z)
WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-06-04T15:17:37Z)
Bilateral Guided Radiance Field Processing [4.816861458037213]
ニューラルラジアンス場(NeRF)は、新規なビュー合成の合成において、前例のない性能を達成する。現代のカメラにおける画像信号処理(ISP)は、独立してそれらを強化し、再構成された放射場において「フローター」となる。我々は、NeRFトレーニング段階におけるISPによる拡張を解消し、再構成されたラディアンスフィールドに対するユーザ希望の強化を再度適用することを提案する。提案手法は,フロータを効果的に除去し,ユーザリタッチによる拡張を行うことにより,新規ビュー合成の視覚的品質を向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-01T14:10:45Z)
MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。 MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文参考訳（メタデータ） (2024-05-20T17:59:30Z)
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文参考訳（メタデータ） (2024-02-27T11:40:50Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文参考訳（メタデータ） (2023-08-21T20:07:02Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)
CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文参考訳（メタデータ） (2022-11-18T18:18:53Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文参考訳（メタデータ） (2021-10-18T08:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。