論文の概要: Towards Camera-Robust 3D Localization: Equation-Anchored Tool-Use for MLLMs
- arxiv url: http://arxiv.org/abs/2605.19528v1
- Date: Tue, 19 May 2026 08:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.206517
- Title: Towards Camera-Robust 3D Localization: Equation-Anchored Tool-Use for MLLMs
- Title(参考訳): カメラ・ロバスト3Dローカライゼーションに向けて:MLLMのための方程式アンコールツール
- Authors: Xueying Jiang, Wenhao Li, Quanhao Qian, Deli Zhao, Shijian Lu, Gongjie Zhang, Ran Xu,
- Abstract要約: MLLM(Multimodal Large Language Models)における3次元ローカライゼーションは、カメラ固有の曖昧さによって制限される。
本稿では,空間ツールを式変数として再活用する,等式対応型ツール利用フレームワークを提案する。
提案手法は,RGBのみのベースラインとツール拡張ベースラインよりも優れており,カメラがトレーニングスケールから最も逸脱する点において,大きな効果がある。
- 参考スコア(独自算出の注目度): 72.8641426724502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D localization in Multimodal Large Language Models (MLLMs), including 3D object detection and 3D visual grounding, is fundamentally limited by camera intrinsic ambiguity: the same image admits different 3D scenes under different cameras. Existing MLLMs either ignore camera parameters and overfit to a canonical training intrinsic, or retrieve depth and 3D cues from external tools but treat the returned values as reference cues (numerical hints that the model is free to interpret implicitly), both preventing camera information from being deterministically propagated into the prediction. We propose an equation-anchored tool-use framework that re-purposes spatial tools as formula variables. The proposed framework proactively retrieves camera intrinsics and samples multi-point metric depths, writes the pinhole back-projection equation $\hat{X} = (u_c - c_x)\bar{Z}/f_x$ explicitly in Chain-of-Thought (CoT), and substitutes tool outputs into the formula before regressing the final 9-DoF bounding box. On both 3D object detection and 3D visual grounding tasks under rescaled camera intrinsics from $0.5\times$ to $1.5\times$, our method outperforms RGB-only and tool-augmented baselines, with significant gains where the camera deviates most from the training scale. Code and data will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)における3Dローカライゼーションは、3Dオブジェクトの検出と3D視覚的グラウンド化を含む、基本的にカメラ固有の曖昧さによって制限されている。
既存のMLLMはカメラパラメータを無視し、通常の訓練に過度に適合するか、あるいは外部ツールから奥行きと3Dキューを回収するが、返却された値を参照キューとして扱う(モデルが暗黙的に解釈する自由な数値的なヒント)。
本稿では,空間ツールを式変数として再活用する,等式対応型ツール利用フレームワークを提案する。
提案フレームワークは, カメラ内在と多点距離深度を積極的に回収し, ピンホールバック投射方程式 $\hat{X} = (u_c - c_x)\bar{Z}/f_x$ を Chain-of-Thought (CoT) で明示的に記述し, 最終9-DoFバウンディングボックスを回帰する前にツール出力を式に置換する。
3Dオブジェクトの検出と3D視覚的グラウンド処理の両方において、カメラがトレーニングスケールから最も逸脱した場合、0.5\times$から1.5\times$まで、我々の手法はRGBのみのベースラインとツール拡張ベースラインを上回っます。
コードとデータはリリースされます。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries [18.70932813595532]
複数のカメラからの3Dトラッキングは、ビジョンベースの自動運転システムにおいて重要な要素である。
我々はMUTR3Dと呼ばれるエンドツーエンドのtextbfMUlti-camera textbfTRackingフレームワークを提案する。
MUTR3Dは、オブジェクトの空間的および外観的類似性に明示的に依存していない。
nuScenesデータセット上で5.3 AMOTAによる最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-05-02T01:45:41Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。