論文の概要: PLAF: Pixel-wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2604.15770v1
- Date: Fri, 17 Apr 2026 07:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.78565
- Title: PLAF: Pixel-wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding
- Title(参考訳): PLAF:高能率3次元シーン理解のための画素言語対応特徴抽出
- Authors: Junjie Wen, Junlin He, Fei Ma, Jinqiang Cui,
- Abstract要約: 本稿では,Pixel 対応言語特徴抽出フレームワーク emphPLAF を提案する。
emphPLAFは、オープン語彙表現性を犠牲にすることなく、2Dで密で正確なセマンティックアライメントを可能にする。
我々は,emphPLAFが3Dシーン理解の正確で効率的なオープンボキャブラリを実現するための強力なセマンティック基盤を提供することを示す。
- 参考スコア(独自算出の注目度): 11.302328702364408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate open-vocabulary 3D scene understanding requires semantic representations that are both language-aligned and spatially precise at the pixel level, while remaining scalable when lifted to 3D space. However, existing representations struggle to jointly satisfy these requirements, and densely propagating pixel-wise semantics to 3D often results in substantial redundancy, leading to inefficient storage and querying in large-scale scenes. To address these challenges, we present \emph{PLAF}, a Pixel-wise Language-Aligned Feature extraction framework that enables dense and accurate semantic alignment in 2D without sacrificing open-vocabulary expressiveness. Building upon this representation, we further design an efficient semantic storage and querying scheme that significantly reduces redundancy across both 2D and 3D domains. Experimental results show that \emph{PLAF} provides a strong semantic foundation for accurate and efficient open-vocabulary 3D scene understanding. The codes are publicly available at https://github.com/RockWenJJ/PLAF.
- Abstract(参考訳): 正確なオープン語彙の3Dシーン理解には、言語に整合し、ピクセルレベルで空間的に正確であるセマンティック表現が必要であるが、3D空間に持ち上げるとスケーラビリティが保たれる。
しかし、既存の表現はこれらの要件を共同で満たすのに苦労し、ピクセルワイドなセマンティクスを3Dに密に伝播させることは、しばしばかなりの冗長性をもたらし、大規模なシーンで非効率な記憶とクエリをもたらす。
これらの課題に対処するため,Pixel 対応言語特徴抽出フレームワークである \emph{PLAF} を提案する。
この表現に基づいて、2Dドメインと3Dドメイン間の冗長性を著しく低減する効率的なセマンティックストレージとクエリ方式を設計する。
実験の結果, \emph{PLAF} は, 正確かつ効率的なオープン語彙3次元シーン理解のための強力なセマンティック基盤を提供することがわかった。
コードはhttps://github.com/RockWenJJ/PLAF.comで公開されている。
関連論文リスト
- FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views [52.02871618456553]
FLEGは、言語に埋め込まれた3Dガウシアンをあらゆる視点から再構築するフィードフォワードネットワークである。
任意の非校正画像から2次元から3次元へのリフトのための3Dアノテーションのないトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-19T13:04:13Z) - Lang3D-XL: Language Embedded 3D Gaussians for Large-scale Scenes [23.445409551683213]
3次元表現に言語フィールドを埋め込み、空間環境のより豊かな意味理解を可能にする。
本稿では,メモリと実行時の意味的特徴の不一致と非効率性に対処する新しいアプローチを提案する。
本手法は,現在開発中のHolyScenesデータセット上で評価し,性能と効率の両面で既存のアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2025-12-08T18:39:58Z) - Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings [17.855913571198013]
本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。
私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウスを利用して、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。
これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
論文 参考訳(メタデータ) (2025-09-16T10:39:37Z) - GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文 参考訳(メタデータ) (2025-08-19T21:26:49Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。