論文の概要: Splat Feature Solver
- arxiv url: http://arxiv.org/abs/2508.12216v1
- Date: Sun, 17 Aug 2025 03:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.619568
- Title: Splat Feature Solver
- Title(参考訳): Splat Feature Solver
- Authors: Butian Xiong, Rong Liu, Kenneth Xu, Meida Chen, Andrew Feng,
- Abstract要約: 本稿では,特徴持ち上げ問題のカーネルおよび特徴に依存しない定式化を,スパース線形逆問題として提示する。
解の安定化と意味的忠実度向上のための2つの相補的正則化戦略を導入する。
提案手法は,オープンボキャブラリ3次元セグメンテーションベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 2.385329252971734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature lifting has emerged as a crucial component in 3D scene understanding, enabling the attachment of rich image feature descriptors (e.g., DINO, CLIP) onto splat-based 3D representations. The core challenge lies in optimally assigning rich general attributes to 3D primitives while addressing the inconsistency issues from multi-view images. We present a unified, kernel- and feature-agnostic formulation of the feature lifting problem as a sparse linear inverse problem, which can be solved efficiently in closed form. Our approach admits a provable upper bound on the global optimal error under convex losses for delivering high quality lifted features. To address inconsistencies and noise in multi-view observations, we introduce two complementary regularization strategies to stabilize the solution and enhance semantic fidelity. Tikhonov Guidance enforces numerical stability through soft diagonal dominance, while Post-Lifting Aggregation filters noisy inputs via feature clustering. Extensive experiments demonstrate that our approach achieves state-of-the-art performance on open-vocabulary 3D segmentation benchmarks, outperforming training-based, grouping-based, and heuristic-forward baselines while producing the lifted features in minutes. Code is available at \href{https://github.com/saliteta/splat-distiller.git}{\textbf{github}}. We also have a \href{https://splat-distiller.pages.dev/}
- Abstract(参考訳): フィーチャーリフトは3Dシーン理解において重要な要素として現れており、リッチなイメージ特徴記述子(例えばDINO、CLIP)をスプレートベースの3D表現にアタッチできる。
主な課題は、リッチな汎用属性を3Dプリミティブに最適に割り当てると同時に、マルチビューイメージからの不整合問題に対処することである。
本稿では, 特徴持ち上げ問題の統一的, カーネル的, 特徴に依存しない定式化を, 閉形式で効率的に解ける疎線型逆問題として提示する。
提案手法は,高品質な昇降機能を実現するために,凸損失の下での大域的最適誤差の証明可能な上限を認めている。
マルチビュー観測における不整合とノイズに対処するために,解の安定化と意味的忠実度向上のための2つの相補的正規化戦略を導入する。
Tikhonov Guidanceはソフトな対角線支配による数値安定性を、Post-Lifting Aggregation filterは特徴クラスタリングによるノイズの多い入力を強制する。
広汎な実験により,オープンボキャブラリの3次元セグメンテーションベンチマーク,トレーニングベース,グルーピングベース,ヒューリスティックフォワードベースラインの性能を向上し,昇降した特徴を数分で生み出すことができた。
コードは \href{https://github.com/saliteta/splat-distiller.git}{\textbf{github}} で公開されている。
また、 \href{https://splat-distiller.pages.dev/} があります。
関連論文リスト
- Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文 参考訳(メタデータ) (2025-03-08T08:04:27Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Stochastic Nested Compositional Bi-level Optimization for Robust Feature
Learning [11.236838268731804]
ネストされた二段階最適化問題を解くアルゴリズムを開発し,解析する。
提案アルゴリズムは,行列複雑性やミニバッチに依存しない。
論文 参考訳(メタデータ) (2023-07-11T15:52:04Z) - Large-scale Point Cloud Registration Based on Graph Matching
Optimization [30.92028761652611]
アンダーライン最適化に基づくアンダーライングラフアンダーラインマッチングを提案する。
提案手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-02-12T03:29:35Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Multiway Non-rigid Point Cloud Registration via Learned Functional Map
Synchronization [105.14877281665011]
我々は、点雲上に定義された学習関数に関する地図を同期させることにより、複数の非剛体形状を登録する新しい方法であるSyNoRiMを提案する。
提案手法は,登録精度において最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2021-11-25T02:37:59Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。