論文の概要: Vector Quantized Feature Fields for Fast 3D Semantic Lifting
- arxiv url: http://arxiv.org/abs/2503.06469v1
- Date: Sun, 09 Mar 2025 06:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:55.511671
- Title: Vector Quantized Feature Fields for Fast 3D Semantic Lifting
- Title(参考訳): 高速3次元セマンティックリフティングのためのベクトル量子化特徴場
- Authors: George Tang, Aditya Agarwal, Weiqiao Han, Trevor Darrell, Yutong Bai,
- Abstract要約: 我々は,タスクの持ち上げに関連する画素を示すビュー毎のマスクを組み込むことで,セマンティックリフティングを一般化する。
本稿では,Vector-Quantized Feature Fieldを導入し,画素対応関連マスクの軽量なオンデマンド検索を実現する。
- 参考スコア(独自算出の注目度): 50.99115349412961
- License:
- Abstract: We generalize lifting to semantic lifting by incorporating per-view masks that indicate relevant pixels for lifting tasks. These masks are determined by querying corresponding multiscale pixel-aligned feature maps, which are derived from scene representations such as distilled feature fields and feature point clouds. However, storing per-view feature maps rendered from distilled feature fields is impractical, and feature point clouds are expensive to store and query. To enable lightweight on-demand retrieval of pixel-aligned relevance masks, we introduce the Vector-Quantized Feature Field. We demonstrate the effectiveness of the Vector-Quantized Feature Field on complex indoor and outdoor scenes. Semantic lifting, when paired with a Vector-Quantized Feature Field, can unlock a myriad of applications in scene representation and embodied intelligence. Specifically, we showcase how our method enables text-driven localized scene editing and significantly improves the efficiency of embodied question answering.
- Abstract(参考訳): 本研究は,リフティングタスクに関連する画素を示すビュー毎のマスクを組み込むことにより,リフティングからセマンティックリフティングまでを一般化する。
これらのマスクは、蒸留された特徴場や特徴点雲などのシーン表現から派生した、対応するマルチスケールな特徴マップを問合せすることによって決定される。
しかし、蒸留された特徴フィールドからレンダリングされたビュー毎の特徴マップの保存は現実的ではなく、特徴点クラウドの保存とクエリは高価である。
画素整列型関連マスクの軽量なオンデマンド検索を実現するために,ベクトル量子化特徴場を提案する。
室内・屋外の複雑なシーンにおけるベクトル量子化特徴場の有効性を実証する。
セマンティックリフト(Semantic lifting)は、ベクトル量子化機能フィールド(Vector-Quantized Feature Field)と組み合わせることで、シーン表現と具体的インテリジェンスにおける無数のアプリケーションをアンロックすることができる。
具体的には,テキストによる局所的なシーン編集を実現し,具体的質問応答の効率を大幅に向上させる方法について述べる。
関連論文リスト
- LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences [70.0873383646651]
LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
論文 参考訳(メタデータ) (2024-12-02T09:07:57Z) - Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - AssetField: Assets Mining and Reconfiguration in Ground Feature Plane
Representation [111.59786941545774]
AssetFieldは、新しいニューラルシーン表現で、シーンを表現するためにオブジェクト対応のグラウンド特徴面のセットを学習する。
AssetFieldは、新しいシーン構成のためのリアルなレンダリングを生成するとともに、新規ビュー合成のための競争性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T12:18:10Z) - Baking in the Feature: Accelerating Volumetric Segmentation by Rendering
Feature Maps [42.34064154798376]
既存の大規模データセットで訓練されたモデルから抽出した特徴を用いてセグメント化性能を向上させることを提案する。
この特徴表現をNeRF(Neural Radiance Field)に、特徴マップを体積的にレンダリングし、各入力画像から抽出した特徴を監督することにより、焼成する。
提案手法は,既存手法よりも意味的アノテーションが少なく,多様な場面で高いセグメンテーション精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-09-26T14:52:10Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Light Field Implicit Representation for Flexible Resolution
Reconstruction [9.173467982128514]
入力ビューのスパースセットに条件付き4次元光場を暗黙的に表現するモデルを提案する。
我々のモデルは、連続的な座標の光場値を出力するように訓練されている。
実験により,本手法は,高速かつ高速なビュー合成のための最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2021-11-30T23:59:02Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。