論文の概要: Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2603.01224v1
- Date: Sun, 01 Mar 2026 18:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.576063
- Title: Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction
- Title(参考訳): 人間-ロボットインタラクションのためのVLMを用いた単眼3次元物体位置推定
- Authors: Ari Wahl, Dorian Gawlinski, David Przewozny, Paul Chojecki, Felix Bießmann, Sebastian Bosse,
- Abstract要約: 本研究では3次元座標検出タスクにおける視覚言語モデル(VLM)の対話的能力について検討する。
我々は、10万以上の画像の異種データセットを収集し、カスタムレグレッションヘッドでQLoRAを用いてVLMを微調整した。
以上の結果から,テストセットの中央値13mmのMAEと,より単純なベースラインよりも5倍の精度向上が得られた。
- 参考スコア(独自算出の注目度): 0.9601607750628977
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Pre-trained general-purpose Vision-Language Models (VLM) hold the potential to enhance intuitive human-machine interactions due to their rich world knowledge and 2D object detection capabilities. However, VLMs for 3D coordinates detection tasks are rare. In this work, we investigate interactive abilities of VLMs by returning 3D object positions given a monocular RGB image from a wrist-mounted camera, natural language input, and robot states. We collected and curated a heterogeneous dataset of more than 100,000 images and finetuned a VLM using QLoRA with a custom regression head. By implementing conditional routing, our model maintains its ability to process general visual queries while adding specialized 3D position estimation capabilities. Our results demonstrate robust predictive performance with a median MAE of 13 mm on the test set and a five-fold improvement over a simpler baseline without finetuning. In about 25% of the cases, predictions are within a range considered acceptable for the robot to interact with objects.
- Abstract(参考訳): 事前訓練された汎用視覚言語モデル(VLM)は、豊かな世界知識と2次元物体検出能力により、直感的な人間と機械の相互作用を強化する可能性を秘めている。
しかし,3次元座標検出タスクのVLMは稀である。
本研究では,手首に装着したカメラ,自然言語入力,ロボット状態から単眼RGB画像が与えられた3Dオブジェクト位置を返却することにより,VLMのインタラクティブな能力について検討する。
我々は、10万以上の画像の異種データセットを収集し、カスタムレグレッションヘッドでQLoRAを用いてVLMを微調整した。
条件付きルーティングを実装することで、我々のモデルは、特殊な3次元位置推定機能を加えながら、一般的な視覚的クエリを処理できる能力を維持している。
実験結果より, 試験セットの中央値13mmのMAEで頑健な予測性能を示し, より単純なベースラインよりも5倍の精度が得られた。
約25%のケースでは、ロボットが物体と対話することが許容できる範囲内にある。
関連論文リスト
- Pointing-Guided Target Estimation via Transformer-Based Attention [8.35701920541908]
ディスティックなジェスチャーは、指さすように、人間が特定の物体や場所に直接注意を向けることを可能にする非言語コミュニケーションの基本的な形態である。
この能力は、ロボットが人間の意図を予測し、適切な反応を予測できるHRI(Human-Robot Interaction)において不可欠である。
NICOLロボットを用いて制御テーブルトップシナリオにおけるオブジェクトの予測を行うモジュールアーキテクチャであるMulti-Modality Inter-TransFormer (MM-ITF)を提案する。
論文 参考訳(メタデータ) (2025-09-05T11:42:03Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。