論文の概要: ChangingGrounding: 3D Visual Grounding in Changing Scenes
- arxiv url: http://arxiv.org/abs/2510.14965v1
- Date: Thu, 16 Oct 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.000106
- Title: ChangingGrounding: 3D Visual Grounding in Changing Scenes
- Title(参考訳): ChangingGrounding: シーン変更時の3D視覚的グラウンド
- Authors: Miao Hu, Zhiwei Huang, Tai Wang, Jiangmiao Pang, Dahua Lin, Nanning Zheng, Runsen Xu,
- Abstract要約: 現実世界のロボットは自然言語からオブジェクトをローカライズするが、周囲のシーンは変化し続けている。
既存の3Dビジュアルグラウンドティング(3DVG)手法のほとんどは、再構築された最新の点雲を前提としている。
エージェントが過去の観測をいかにうまく活用できるかを明示的に測定する最初のベンチマークであるChangeingGroundingを紹介します。
- 参考スコア(独自算出の注目度): 92.00984845186679
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world robots localize objects from natural-language instructions while scenes around them keep changing. Yet most of the existing 3D visual grounding (3DVG) method still assumes a reconstructed and up-to-date point cloud, an assumption that forces costly re-scans and hinders deployment. We argue that 3DVG should be formulated as an active, memory-driven problem, and we introduce ChangingGrounding, the first benchmark that explicitly measures how well an agent can exploit past observations, explore only where needed, and still deliver precise 3D boxes in changing scenes. To set a strong reference point, we also propose Mem-ChangingGrounder, a zero-shot method for this task that marries cross-modal retrieval with lightweight multi-view fusion: it identifies the object type implied by the query, retrieves relevant memories to guide actions, then explores the target efficiently in the scene, falls back when previous operations are invalid, performs multi-view scanning of the target, and projects the fused evidence from multi-view scans to get accurate object bounding boxes. We evaluate different baselines on ChangingGrounding, and our Mem-ChangingGrounder achieves the highest localization accuracy while greatly reducing exploration cost. We hope this benchmark and method catalyze a shift toward practical, memory-centric 3DVG research for real-world applications. Project page: https://hm123450.github.io/CGB/ .
- Abstract(参考訳): 現実世界のロボットは、物体を自然言語の指示からローカライズし、周囲のシーンは変化し続ける。
しかし、既存の3Dビジュアルグラウンド(3DVG)メソッドのほとんどは、再構築された最新のポイントクラウドを前提としています。
3DVGはアクティブなメモリ駆動の問題として定式化されるべきであり、エージェントが過去の観測をいかにうまく活用し、必要な場所でのみ探索し、変化するシーンで正確な3Dボックスを提供するかを明確に示す最初のベンチマークであるChangeingGroundingを導入する。
クエリによって入力されたオブジェクトタイプを識別し、アクションを誘導するために関連メモリを検索し、シーン内で効率的にターゲットを探索し、以前の操作が無効になったときにフォールバックし、ターゲットのマルチビュースキャンを実行し、マルチビュースキャンから融合した証拠を投影し、正確なオブジェクト境界ボックスを得る。
我々はChangeingGroundingの異なるベースラインを評価し、Mem-ChangingGrounderは探索コストを大幅に削減しつつ、最も高いローカライゼーション精度を達成する。
このベンチマークと手法が、実世界のアプリケーションのための実践的でメモリ中心の3DVG研究へのシフトを触媒することを期待している。
プロジェクトページ: https://hm123450.github.io/CGB/
関連論文リスト
- T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement [2.2122801766964795]
3DGS-CDは3Dシーンにおける物体の物理的配置を検出する最初の3Dガウス散乱(3DGS)に基づく手法である。
提案手法では,異なる時間に撮影された2つの不整合画像を比較して3次元オブジェクトレベルの変化を推定する。
提案手法は,18秒以内のスパース画像を用いて,散在する環境の変化を正確に識別することができる。
論文 参考訳(メタデータ) (2024-11-06T07:08:41Z) - What You See Is What You Detect: Towards better Object Densification in
3D detection [2.3436632098950456]
広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T01:46:37Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。