論文の概要: UniFField: A Generalizable Unified Neural Feature Field for Visual, Semantic, and Spatial Uncertainties in Any Scene
- arxiv url: http://arxiv.org/abs/2510.06754v1
- Date: Wed, 08 Oct 2025 08:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.364017
- Title: UniFField: A Generalizable Unified Neural Feature Field for Visual, Semantic, and Spatial Uncertainties in Any Scene
- Title(参考訳): UniFField: あらゆる場面における視覚的、意味的、空間的不確実性のための一般化可能な統一ニューラルネットワーク
- Authors: Christian Maurer, Snehal Jauhri, Sophie Lueth, Georgia Chalvatzaki,
- Abstract要約: 視覚的,意味的,幾何学的特徴を1つの一般化可能な表現で組み合わせた,統一的不確実性を考慮したニューラル特徴場UniFFieldを提案する。
シーン再構成と意味的特徴予測におけるモデル予測誤差を正確に記述するために,不確実性推定を評価した。
- 参考スコア(独自算出の注目度): 11.224584333257338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive visual, geometric, and semantic understanding of a 3D scene is crucial for successful execution of robotic tasks, especially in unstructured and complex environments. Additionally, to make robust decisions, it is necessary for the robot to evaluate the reliability of perceived information. While recent advances in 3D neural feature fields have enabled robots to leverage features from pretrained foundation models for tasks such as language-guided manipulation and navigation, existing methods suffer from two critical limitations: (i) they are typically scene-specific, and (ii) they lack the ability to model uncertainty in their predictions. We present UniFField, a unified uncertainty-aware neural feature field that combines visual, semantic, and geometric features in a single generalizable representation while also predicting uncertainty in each modality. Our approach, which can be applied zero shot to any new environment, incrementally integrates RGB-D images into our voxel-based feature representation as the robot explores the scene, simultaneously updating uncertainty estimation. We evaluate our uncertainty estimations to accurately describe the model prediction errors in scene reconstruction and semantic feature prediction. Furthermore, we successfully leverage our feature predictions and their respective uncertainty for an active object search task using a mobile manipulator robot, demonstrating the capability for robust decision-making.
- Abstract(参考訳): 3Dシーンの総合的な視覚的、幾何学的、意味的な理解は、特に非構造的で複雑な環境において、ロボットタスクの実行を成功させるために不可欠である。
さらに,ロバストな決定を行うには,ロボットが知覚情報の信頼性を評価する必要がある。
最近の3Dニューラル機能フィールドの進歩により、ロボットは言語誘導操作やナビゲーションといったタスクのために、事前訓練された基礎モデルの機能を活用できるようになったが、既存の手法には2つの重要な制限がある。
(i)典型的にはシーン特有で、
(二)予測の不確実性をモデル化する能力に欠ける。
視覚的特徴,意味的特徴,幾何学的特徴を組み合わせた統一された不確実性認識型ニューラルネットワークUniFFieldを提案する。
我々のアプローチは、新しい環境にゼロショットで適用でき、ロボットがシーンを探索する際、RGB-Dイメージを我々のボクセルベースの特徴表現に漸進的に統合し、不確実性推定を同時に更新する。
シーン再構成と意味的特徴予測におけるモデル予測誤差を正確に記述するために,不確実性推定を評価した。
さらに,移動マニピュレータロボットを用いた能動物体探索作業において,特徴予測とその不確実性をうまく活用し,ロバストな意思決定能力を示す。
関連論文リスト
- Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes [71.2827490406779]
本稿では,これらの課題に対処するためのニューラル・プロセス(NP)に基づく新しい確率的フレームワークNPISeg3Dを提案する。
NPISeg3Dは、シーン固有およびオブジェクト固有の潜在変数を持つ階層的な潜在変数構造を導入し、少数ショットの一般化を強化している。
我々は,オブジェクト固有の潜伏変数を用いたクリックプロトタイプを適応的に変調するプロトタイプモジュレータを設計し,オブジェクト認識コンテキストをキャプチャするモデルの能力を向上させる。
論文 参考訳(メタデータ) (2025-05-03T07:43:23Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Maintaining a Reliable World Model using Action-aware Perceptual
Anchoring [4.971403153199917]
物体が見えなくなったり見えなくなったりしても、ロボットは周囲のモデルを維持する必要がある。
これは、環境内のオブジェクトを表すシンボルに知覚情報をアンカーする必要がある。
本稿では,ロボットが物体を永続的に追跡できる行動認識型知覚アンカーのモデルを提案する。
論文 参考訳(メタデータ) (2021-07-07T06:35:14Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。