論文の概要: LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight
- arxiv url: http://arxiv.org/abs/2511.20648v1
- Date: Tue, 25 Nov 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.646996
- Title: LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight
- Title(参考訳): LocateAnything3D: Chain-of-Sightによる視覚言語3D検出
- Authors: Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu,
- Abstract要約: 次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
- 参考スコア(独自算出の注目度): 105.9472902251177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To act in the world, a model must name what it sees and know where it is in 3D. Today's vision-language models (VLMs) excel at open-ended 2D description and grounding, yet multi-object 3D detection remains largely missing from the VLM toolbox. We present LocateAnything3D, a VLM-native recipe that casts 3D detection as a next-token prediction problem. The key is a short, explicit Chain-of-Sight (CoS) sequence that mirrors how human reason from images: find an object in 2D, then infer its distance, size, and pose. The decoder first emits 2D detections as a visual chain-of-thought, then predicts 3D boxes under an easy-to-hard curriculum: across objects, a near-to-far order reduces early ambiguity and matches ego-centric utility; within each object, a center-from-camera, dimensions, and rotation factorization ranks information by stability and learnability. This VLM-native interface preserves open-vocabulary and visual-prompting capability without specialized heads. On the challenging Omni3D benchmark, our model achieves state-of-the-art results, with 49.89 AP_3D, surpassing the previous best by +15.51 absolute improvement even when the baseline is given ground-truth 2D boxes. It also generalizes zero-shot to held-out categories with strong robustness. By turning 3D detection into a disciplined next-token problem, LocateAnything3D offers a practical foundation for models to perceive in 3D.
- Abstract(参考訳): 世界で行動するためには、モデルが見ているものを名付け、それがどこにあるのかを3Dで知る必要がある。
現代の視覚言語モデル(VLM)は、オープンエンドな2D記述とグラウンド化に優れていますが、VLMツールボックスにはほとんど欠落しています。
本稿では,VLMネイティブなレシピであるLocateAnything3Dについて述べる。
鍵となるのは、2Dで物体を見つけ、その距離、サイズ、ポーズを推測する、短い、明示的なCoS(Chain-of-Sight)シーケンスです。
デコーダは、まず視覚的連鎖として2D検出を出力し、次に、容易でハードなカリキュラムの下で3Dボックスを予測する。オブジェクト間を行き来すると、初期曖昧さが減少し、エゴ中心のユーティリティと一致し、各オブジェクトにおいて、中心からカメラ、寸法、回転係数化は、安定性と学習可能性によって情報をランク付けする。
このVLMネイティブインターフェースは、特別な頭を持つことなく、オープンボキャブラリとビジュアルプロンプティング機能を保っている。
挑戦的なOmni3Dベンチマークでは,ベースラインに接地トラス2Dボックスが与えられた場合でも,49.89 AP_3Dを+15.51絶対改善した。
また、強強靭性を持つゼロショットからホールトアウトカテゴリを一般化する。
LocateAnything3Dは、3D検出を規律ある次の問題に変えることによって、モデルが3Dで知覚する実用的な基盤を提供する。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - 3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。
代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。
具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。
我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:04:39Z) - Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルである
センサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-04-19T02:51:24Z) - Detect Anything 3D in the Wild [34.293450721860616]
DetAny3Dは任意のカメラ構成で新しい物体を検知できる3D検出基盤モデルである。
2D知識を3Dに効果的に転送するために、DetAny3Dは2DアグリゲータとZero-Embedding Mappingによる3Dインタプリタという2つのコアモジュールを組み込んでいる。
DetAny3Dは、未確認のカテゴリや新しいカメラ構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T17:59:22Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。