論文の概要: Two-View Accumulation as the Primary Training Lever for Hybrid-Capture Gaussian Splatting: A Variance-Decomposition View of When Gradient Surgery Helps
- arxiv url: http://arxiv.org/abs/2605.00052v1
- Date: Wed, 29 Apr 2026 17:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.653886
- Title: Two-View Accumulation as the Primary Training Lever for Hybrid-Capture Gaussian Splatting: A Variance-Decomposition View of When Gradient Surgery Helps
- Title(参考訳): ハイブリット・キャプチャ・ガウス・スプラッティングの初等訓練レバーとしての2視点蓄積 : 勾配手術が有効である場合のばらつき分解
- Authors: Sungjun Cho,
- Abstract要約: ハイブリッドキャプチャーノベルビュー合成は、かなり異なるカメラビューを組み合わせる。
標準3DGSは、ステップ毎に1つのレンダリングビューで30Kイテレーションでトレーニングされている。
本稿では,この発見を予測・説明する分散分解フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.6889618752994595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid-capture novel view synthesis combines images at substantially different camera distances (e.g., aerial drone and ground-level views). Standard 3D Gaussian Splatting (3DGS), trained for 30K iterations with one rendered view per optimizer step, under-fits the minority regime by 1-3 dB on five hybrid-capture benchmarks. We isolate the lever that closes this gap. Among compute-matched alternatives -- vanilla 60K iterations, magnitude corrections (GradNorm), direction-aware near/far gradient surgery, projective preconditioning, confidence-gated sample-level surgery, and a random two-view-per-step control -- the simplest structural change wins: rendering two views per optimizer step. The pairing rule (geometry-defined near/far, random, or active loss-disparity) does not change PSNR beyond seed variance on any of the five scenes; the structural change of having two views per step does. We propose a variance-decomposition framework that predicts and explains this finding: under bimodal camera regimes, between-regime gradient variance turns out to be small relative to within-regime variance in 3DGS, so structured and random pairings are variance-equivalent in expectation, and the variance halving from two-view accumulation itself is the dominant effect. We verify the framework on five scenes whose camera-altitude bimodality coefficients span [0.55, 1.00], and we report the negative result that direction-aware projection, magnitude correction, confidence gating, and an active loss-disparity pairing all fall within seed variance of random two-view pairing. The two-view structural lever transfers cleanly to the Scaffold-GS and Pixel-GS backbones. We position this work as an honest characterization of which training-side axes do and do not move PSNR for hybrid-capture 3DGS, together with the framework that explains why.
- Abstract(参考訳): ハイブリッドキャプチャーのノベルビュー合成は、かなり異なるカメラ距離の画像を合成する(例えば、空中ドローンや地上レベルのビュー)。
標準3Dガウススプラッティング(3DGS)は、オプティマイザステップ毎に1つのレンダリングビューで30Kイテレーションでトレーニングされ、5つのハイブリッドキャプチャーベンチマークで1-3dBのマイノリティレジームに不適合である。
この隙間を埋めるレバーを分離する。
バニラ60Kイテレーション、マグニチュード補正(GradNorm)、方向対応の近/遠勾配手術、プロジェクティブプレコンディション、信頼度の高いサンプルレベル手術、ランダムな2ビュー・パー・ステップ制御など、計算に適合した代替案では、最も単純な構造的変更が勝利する。
ペアリング規則(Geometry-defined near/far, random, or active loss-disparity)は、PSNRが5つのシーンのいずれのシード分散を超えても変化しない。
バイモーダルカメラ体制下では, 3DGS のレジム内分散に対して, 偏差は小さく, 構造的, ランダムなペアリングは予測に等価であり, 2ビューの累積から半減する分散が支配的効果である。
カメラ高度の両モード係数が[0.55,1.00]の範囲にまたがる5つの場面において,この枠組みを検証し,ランダムな2ビューペアリングのシード分散に収まる方向対応の投影,大きさ補正,信頼ゲーティング,アクティブな損失分散ペアリングの負の結果を報告する。
2ビュー構造レバーは、Scaffold-GSとPixel-GSのバックボーンにきれいに転送される。
本研究は, ハイブリッド3DGS用PSNRを, 理由を説明するフレームワークとともに, トレーニング側軸がどの動作を行うのか, 動作しないのかを, 正直に評価するものである。
関連論文リスト
- iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-11-18T05:22:22Z) - SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [18.814209805277503]
スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-21T21:37:56Z) - Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting [39.014517076251934]
3D Gaussian Splatting (3DGS) は、高密度ビュー環境下での新規なビュー合成において、印象的な性能を示した。
スパースビューのシナリオでは、トレーニングビューのリアルなレンダリングにもかかわらず、3DGSは時々、新しいビューで外見のアーティファクトを示す。
本稿では,スパースビュー3DGSの外観アーティファクトについて検討し,現在のアプローチの限界を明らかにする。
論文 参考訳(メタデータ) (2025-08-18T08:34:49Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。