論文の概要: FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain
- arxiv url: http://arxiv.org/abs/2511.21113v1
- Date: Wed, 26 Nov 2025 06:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.999926
- Title: FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain
- Title(参考訳): FaithFusion: ピクセル情報ゲインによる再構成と生成の調和
- Authors: YuAn Wang, Xiaofan Li, Chi Huang, Wenhao Zhang, Hao Li, Bosheng Wang, Xun Sun, Jun Wang,
- Abstract要約: 画素ワイド情報ゲイン(EIG)を用いた3DGS拡散フレームワークを提案する。
EIGはコヒーレント制御可能なテキスト合成のための統一ポリシーとして機能する。
データセットを用いた実験により,NTA-oU,NTLI-oU,FIDにまたがるSOTAは6mのレーンシフトでも107.47のFIDを維持していることがわかった。
- 参考スコア(独自算出の注目度): 17.131480990824397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In controllable driving-scene reconstruction and 3D scene generation, maintaining geometric fidelity while synthesizing visually plausible appearance under large viewpoint shifts is crucial. However, effective fusion of geometry-based 3DGS and appearance-driven diffusion models faces inherent challenges, as the absence of pixel-wise, 3D-consistent editing criteria often leads to over-restoration and geometric drift. To address these issues, we introduce \textbf{FaithFusion}, a 3DGS-diffusion fusion framework driven by pixel-wise Expected Information Gain (EIG). EIG acts as a unified policy for coherent spatio-temporal synthesis: it guides diffusion as a spatial prior to refine high-uncertainty regions, while its pixel-level weighting distills the edits back into 3DGS. The resulting plug-and-play system is free from extra prior conditions and structural modifications.Extensive experiments on the Waymo dataset demonstrate that our approach attains SOTA performance across NTA-IoU, NTL-IoU, and FID, maintaining an FID of 107.47 even at 6 meters lane shift. Our code is available at https://github.com/wangyuanbiubiubiu/FaithFusion.
- Abstract(参考訳): 制御可能な運転シーンの再構築と3次元シーン生成において,視覚的可視な外観を大局的な視点シフト下で合成しながら幾何学的忠実さを維持することが重要である。
しかし、幾何学に基づく3DGSと外見駆動拡散モデルの効果的な融合は、ピクセル単位での3D一貫性のある編集基準が欠如しているため、しばしば過剰な復元や幾何学的ドリフトにつながるため、固有の課題に直面している。
これらの問題に対処するために,画素ワイド情報ゲイン(EIG)によって駆動される3DGS拡散融合フレームワークである \textbf{FaithFusion} を紹介する。
EIGは、コヒーレントな時空間合成のための統一されたポリシーとして機能し、高不確かさ領域を洗練する前に拡散を空間的に導く一方、ピクセルレベルの重み付けは編集を3DGSに蒸留する。
Waymoデータセットの大規模な実験により,NTA-IoU,NTL-IoU,FIDにまたがるSOTA性能は6mのレーンシフトでも107.47のFIDを維持していることがわかった。
私たちのコードはhttps://github.com/wangyuanbiubiubiu/FaithFusion.comで公開されています。
関連論文リスト
- SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images [31.94503176488054]
SaLon3Rは構造対応の長期3DGS再構成のための新しいフレームワークである。
10 FPS以上で50以上のビューを再構築でき、50%から90%の冗長性除去が可能である。
提案手法は, 1回のフィードフォワードパスにおいて, アーティファクトを効果的に解決し, 冗長な3DGSを創出する。
論文 参考訳(メタデータ) (2025-10-16T18:37:10Z) - RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - Accurate and Complete Surface Reconstruction from 3D Gaussians via Direct SDF Learning [5.604709769018076]
3D Gaussian Splatting (3DGS) はフォトリアリスティック・ビュー・シンセサイザーの強力なパラダイムとして登場した。
3DGSパイプラインに直接サインドディスタンスフィールド(Signed Distance Field, SDF)学習を組み込む統合フレームワークであるDiGSを提案する。
DiGSは高い忠実度を維持しつつ,復元精度と完全性を常に向上することを示す。
論文 参考訳(メタデータ) (2025-09-09T08:17:46Z) - Structural Energy-Guided Sampling for View-Consistent Text-to-3D [18.973527029488746]
テキスト・トゥ・3D生成はしばしばジャヌス問題に悩まされ、オブジェクトが他の角度から重複または歪んだ幾何学に崩壊する。
本研究では, 実時間で完全にマルチビューの整合性を実現する学習自由なプラグイン・アンド・プレイフレームワークSEGSを提案する。
論文 参考訳(メタデータ) (2025-08-23T06:26:04Z) - Unleashing Semantic and Geometric Priors for 3D Scene Completion [18.515824341739]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律走行とロボットナビゲーションのための密集した幾何学的および意味的知覚を提供する。
既存の手法は、意味的および幾何学的事前情報を提供するために結合エンコーダに依存している。
本稿では、ソースレベルとパスレベルの両方で二重分離を行う新しいフレームワークであるFoundationSSCを提案する。
論文 参考訳(メタデータ) (2025-08-19T08:10:39Z) - Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis [22.767866875051013]
本稿では,現行手法の限界に対処する多視点拡散モデルを用いて,新しい3DGSフレームワークであるGS-Diffを提案する。
マルチビュー入力に条件付き擬似観測を生成することにより、制約の少ない3次元再構成問題をよく表されたものに変換する。
4つのベンチマークの実験では、GS-Diffは最先端のベースラインをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-02T17:59:46Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。