論文の概要: AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views
- arxiv url: http://arxiv.org/abs/2510.07839v1
- Date: Thu, 09 Oct 2025 06:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.908913
- Title: AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views
- Title(参考訳): AlignGS: スパースから見たロバストな室内再建のための幾何学とセマンティックス
- Authors: Yijie Gao, Houqiang Zhong, Tianchi Zhu, Zhengxue Cheng, Qiang Hu, Li Song,
- Abstract要約: 屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
- 参考スコア(独自算出の注目度): 18.361136390711415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for semantically rich 3D models of indoor scenes is rapidly growing, driven by applications in augmented reality, virtual reality, and robotics. However, creating them from sparse views remains a challenge due to geometric ambiguity. Existing methods often treat semantics as a passive feature painted on an already-formed, and potentially flawed, geometry. We posit that for robust sparse-view reconstruction, semantic understanding instead be an active, guiding force. This paper introduces AlignGS, a novel framework that actualizes this vision by pioneering a synergistic, end-to-end optimization of geometry and semantics. Our method distills rich priors from 2D foundation models and uses them to directly regularize the 3D representation through a set of novel semantic-to-geometry guidance mechanisms, including depth consistency and multi-faceted normal regularization. Extensive evaluations on standard benchmarks demonstrate that our approach achieves state-of-the-art results in novel view synthesis and produces reconstructions with superior geometric accuracy. The results validate that leveraging semantic priors as a geometric regularizer leads to more coherent and complete 3D models from limited input views. Our code is avaliable at https://github.com/MediaX-SJTU/AlignGS .
- Abstract(参考訳): 屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
しかし、幾何学的曖昧さのため、まばらな視点からそれらを作成することは依然として課題である。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
我々は、頑健なスパースビュー再構築のために、意味理解は活発な指導力であると仮定する。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
提案手法は, 2次元基礎モデルから豊富な先行情報を抽出し, 深度整合性や多面正規化を含む新しい意味-幾何学的ガイダンス機構を用いて, 3次元表現を直接正規化する。
提案手法は,新しいビュー合成における最先端の成果を達成し,より優れた幾何的精度で再現できることを示す。
その結果, セマンティック先行を幾何正則化器として活用することで, 限られた入力ビューからより整合的で完全な3Dモデルが得られることがわかった。
私たちのコードはhttps://github.com/MediaX-SJTU/AlignGSで有効です。
関連論文リスト
- OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Sparse-View 3D Reconstruction: Recent Advances and Open Challenges [0.8583178253811411]
濃密な画像取得が不可能なアプリケーションには,スパースビュー3D再構成が不可欠である。
この調査は、ニューラル暗黙のモデルと明示的なポイントクラウドベースのアプローチの最新の進歩をレビューする。
我々は, 幾何正規化, 明示的な形状モデリング, 生成的推論がアーティファクトの緩和にどのように利用されているかを分析する。
論文 参考訳(メタデータ) (2025-07-22T09:57:28Z) - End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。