論文の概要: AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2605.25901v1
- Date: Mon, 25 May 2026 14:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.332297
- Title: AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models
- Title(参考訳): AgentGrounder:マルチモーダル言語モデルを用いたZero-Shot 3D Visual Pointcloud Grounding
- Authors: Cuong Huynh, Maxim Popov, Denis Gridusov, Sergey Kolyubin,
- Abstract要約: 3Dビジュアルグラウンド(3DVG)は、AIを具現化する上で不可欠な機能であり、自然言語の記述に基づいて、エージェントがオブジェクトを3Dシーンにローカライズする必要がある。
タスク固有の3Dトレーニングを必要とせずに,色のついた点クラウド上で直接動作する,ゼロショットの3Dビジュアルグラウンドティングフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Grounding (3DVG) is an essential capability for embodied AI, requiring agents to localize objects in 3D scenes based on natural language descriptions. Recent zero-shot methods leverage 2D vision-language models (LVLMs). However, they often rely on existing sets of multi-view images and struggle with the limited semantic and spatial details provided by standard 3D segmentation tools. We present $\textbf{AgentGrounder}$, a zero-shot 3D visual grounding framework that operates directly on colored point clouds without task-specific 3D training. Our approach follows a two-stage design: (1) an offline stage that applies 3D model to build an Object Lookup Table (OLT) with instance IDs, semantic labels, 3D bounding boxes; and (2) an online tool-driven agent that decomposes each query, retrieves only relevant candidates from the OLT, performs geometric scoring, and triggers image rendering on demand when additional visual evidence (e.g., color, material, or viewpoint-sensitive cues) is required. Compared with fixed anchor-target matching pipelines, this design reduces cascading matching errors and improves context-window efficiency by avoiding prompts overloaded with irrelevant objects. We evaluate on ScanRefer and Nr3D under a zero-shot setting and observe consistent improvements over SeeGround in our setup, including +2.5% Acc@0.5 on ScanRefer and +6.3% on Nr3D, with a notable +6.3% gain on Nr3D view-independent queries. These results show that combining selective retrieval, geometric reasoning, and adaptive visual inspection yields a practical and robust foundation for open-vocabulary 3D grounding. Our code is available at https://github.com/be2rlab/AgentGrounder.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、AIを具現化する上で不可欠な機能であり、自然言語の記述に基づいて、エージェントがオブジェクトを3Dシーンにローカライズする必要がある。
最近のゼロショット法は2次元視覚言語モデル(LVLM)を利用している。
しかし、それらはしばしば既存のマルチビュー画像のセットに依存し、標準的な3Dセグメンテーションツールによって提供される限定的な意味と空間的詳細に苦慮する。
タスク固有の3Dトレーニングを必要とせずに,色のついた点クラウド上で直接動作する,ゼロショットの3Dビジュアルグラウンドティングフレームワークである。
1) オブジェクトルックアップテーブル(OLT)をインスタンスID,セマンティックラベル,3Dバウンディングボックスで構築するオフラインステージ,(2) 各クエリを分解し,OLTから関連する候補のみを検索し,幾何学的評価を行い,追加の視覚的エビデンス(色,素材,視点に敏感な手がかり)が必要な場合に,画像のレンダリングをオンデマンドでトリガーするオンラインツール駆動エージェント。
固定されたアンカーターゲットマッチングパイプラインと比較して、この設計はカスケードマッチングエラーを低減し、無関係なオブジェクトでオーバーロードされるプロンプトを回避してコンテキストウィンドウ効率を向上させる。
ScanReferとNr3Dをゼロショット設定で評価し、ScanReferの+2.5% Acc@0.5、Nr3Dの+6.3%、Nr3Dのビュー非依存クエリの+6.3%など、SeeGroundに対する一貫した改善を観察した。
これらの結果から, 選択的検索, 幾何学的推論, 適応的視覚検査の組み合わせは, オープンボキャブラリ3Dグラウンドティングの実用的で堅牢な基礎となることが示唆された。
私たちのコードはhttps://github.com/be2rlab/AgentGrounder.comから入手可能です。
関連論文リスト
- Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。