論文の概要: CaRF: Enhancing Multi-View Consistency in Referring 3D Gaussian Splatting Segmentation
- arxiv url: http://arxiv.org/abs/2511.03992v1
- Date: Thu, 06 Nov 2025 02:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.276819
- Title: CaRF: Enhancing Multi-View Consistency in Referring 3D Gaussian Splatting Segmentation
- Title(参考訳): CaRF:3次元ガウス散乱セグメンテーションの参照におけるマルチビュー整合性向上
- Authors: Yuwen Tao, Kanglei Zhou, Xin Tan, Yuan Xie,
- Abstract要約: Referring 3D Gaussian Splatting (R3DGS)は、自由形式の言語表現を解釈し、ガウスのフィールドで対応する3D領域をローカライズすることを目的としている。
既存のパイプラインは、言語と3D幾何の間のクロスモーダルアライメントに苦戦している。
本稿では,3次元ガウス空間で直接動作し,マルチビューの整合性を実現するフレームワークであるCamera Aware Referring Field (CaRF)を提案する。
この研究は、より信頼性が高く、一貫性のある3Dシーン理解を促進する。
- 参考スコア(独自算出の注目度): 20.561664000265765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring 3D Gaussian Splatting Segmentation (R3DGS) aims to interpret free-form language expressions and localize the corresponding 3D regions in Gaussian fields. While recent advances have introduced cross-modal alignment between language and 3D geometry, existing pipelines still struggle with cross-view consistency due to their reliance on 2D rendered pseudo supervision and view specific feature learning. In this work, we present Camera Aware Referring Field (CaRF), a fully differentiable framework that operates directly in the 3D Gaussian space and achieves multi view consistency. Specifically, CaRF introduces Gaussian Field Camera Encoding (GFCE), which incorporates camera geometry into Gaussian text interactions to explicitly model view dependent variations and enhance geometric reasoning. Building on this, In Training Paired View Supervision (ITPVS) is proposed to align per Gaussian logits across calibrated views during training, effectively mitigating single view overfitting and exposing inter view discrepancies for optimization. Extensive experiments on three representative benchmarks demonstrate that CaRF achieves average improvements of 16.8%, 4.3%, and 2.0% in mIoU over state of the art methods on the Ref LERF, LERF OVS, and 3D OVS datasets, respectively. Moreover, this work promotes more reliable and view consistent 3D scene understanding, with potential benefits for embodied AI, AR/VR interaction, and autonomous perception.
- Abstract(参考訳): Referring 3D Gaussian Splatting Segmentation (R3DGS)は、自由形式の言語表現を解釈し、ガウスのフィールドで対応する3D領域をローカライズすることを目的としている。
最近の進歩では言語と3D幾何学の相互アライメントが導入されているが、既存のパイプラインは2Dレンダリングによる疑似監視と特定の特徴学習への依存のため、ビュー間の一貫性に苦慮している。
本稿では,3次元ガウス空間で直接動作し,複数ビューの整合性を実現するための,完全に微分可能なフレームワークであるCamera Aware Referring Field(CaRF)を提案する。
具体的には、Gaussian Field Camera Encoding (GFCE)を導入し、Gaussianテキストインタラクションにカメラ幾何学を組み込んでビュー依存のバリエーションを明示的にモデル化し、幾何学的推論を強化する。
これに基づいて、トレーニングペアドビュースーパービジョン(ITPVS)が提案され、トレーニング中に調整されたビューにまたがってガウスのロジット毎に調整され、単一のビューのオーバーフィットを効果的に軽減し、最適化のためのビュー間の不一致を露呈する。
3つの代表的なベンチマークにおいて、CaRFは、Ref LERF、LERF OVS、および3D OVSデータセットの最先端手法に対して、mIoUの16.8%、4.3%、2.0%の平均的な改善を達成することを示した。
さらに、この研究はより信頼性を高め、一貫性のある3Dシーン理解を促進する。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians [26.3996055215988]
Coca-Splatは、スパースビューのポーズレスシーン再構築と新規ビュー合成(NVS)の課題に対処する新しいアプローチである
変形検出TRansformerにインスパイアされ、3次元ガウスおよびカメラパラメータの別クエリを設計する。
変形可能なトランスフォーマー層を通じて層ごとにレイヤを更新し、単一のネットワークで共同最適化を可能にする。
論文 参考訳(メタデータ) (2025-04-01T10:48:46Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Neural Signed Distance Function Inference through Splatting 3D Gaussians Pulled on Zero-Level Set [49.780302894956776]
多視点表面再構成における符号付き距離関数(SDF)の推測は不可欠である。
本稿では3DGSとニューラルSDFの学習をシームレスに融合する手法を提案する。
我々の数値的および視覚的比較は、広く使用されているベンチマークの最先端結果よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-10-18T05:48:06Z) - UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images [20.089890859122168]
我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。
UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
論文 参考訳(メタデータ) (2024-10-17T03:48:02Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。
第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。
広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。