Fugu-MT 論文翻訳(概要): RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

論文の概要: RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

arxiv url: http://arxiv.org/abs/2411.16537v1
Date: Mon, 25 Nov 2024 16:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.873337
Title: RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
Title（参考訳）: RoboSpatial:ロボットのための2次元および3次元視覚言語モデルへの空間的理解の指導
Authors: Chan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield,
Abstract要約: 室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
参考スコア（独自算出の注目度）: 26.42651735582044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial understanding is a crucial capability for robots to make grounded decisions based on their environment. This foundational skill enables robots not only to perceive their surroundings but also to reason about and interact meaningfully within the world. In modern robotics, these capabilities are taken on by visual language models, and they face significant challenges when applied to spatial reasoning context due to their training data sources. These sources utilize general-purpose image datasets, and they often lack sophisticated spatial scene understanding capabilities. For example, the datasets do not address reference frame comprehension - spatial relationships require clear contextual understanding, whether from an ego-centric, object-centric, or world-centric perspective, which allow for effective real-world interaction. To address this issue, we introduce RoboSpatial, a large-scale spatial understanding dataset consisting of real indoor and tabletop scenes captured as 3D scans and egocentric images, annotated with rich spatial information relevant to robotics. The dataset includes 1M images, 5K 3D scans, and 3M annotated spatial relationships, with paired 2D egocentric images and 3D scans to make it both 2D and 3D ready. Our experiments show that models trained with RoboSpatial outperform baselines on downstream tasks such as spatial affordance prediction, spatial relationship prediction, and robotics manipulation.
Abstract（参考訳）: 空間的理解は、ロボットが環境に基づいて決定を下す上で重要な能力である。この基礎的なスキルは、ロボットが周囲を知覚するだけでなく、世界で意味のある推論と相互作用を可能にする。現代のロボット工学では、これらの能力は視覚言語モデルによって引き継がれており、トレーニングデータソースによる空間推論の文脈に適用した場合、重大な課題に直面している。これらのソースは汎用画像データセットを利用しており、しばしば洗練された空間的シーン理解能力が欠如している。例えば、データセットは参照フレームの理解に対処しない - 空間的関係は、エゴ中心、オブジェクト中心、あるいは世界中心の観点から、明確な文脈的理解を必要とする。この問題に対処するために,ロボット工学に関連する豊富な空間情報とアノテートされた3Dスキャンとエゴセントリック画像としてキャプチャされた実際の屋内およびテーブルトップシーンからなる大規模空間理解データセットであるRoboSpatialを紹介した。データセットには、1Mの画像と5Kの3Dスキャン、3Mの注釈付き空間関係が含まれており、ペア化された2D中心の画像と3Dスキャンによって2Dと3Dの両方の準備が整っている。実験の結果,RoboSpatialで訓練したモデルは,空間空き時間予測,空間関係予測,ロボット操作といった下流タスクのベースラインに優れていた。

関連論文リスト

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding [78.12178144115224]
ロボットファウンデーションモデル(RFMs)は、ロボット制御のための汎用的なエンドツーエンドシステムとして大きな可能性を秘めている。本稿では,3次元アノテーションを用いた非ロボティックな画像データの統合と,3次元理解機能を備えた事前学習VLMの強化を提案する。我々は,基礎となる3次元認識と言語による具体化制御を統合したロボット基礎モデルであるtextbfSPEAR-1$を紹介した。
論文参考訳（メタデータ） (2025-11-21T17:09:43Z)
RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph [62.270763554624615]
単眼のRGB画像からロボットのポーズを推定することは、ロボット工学とコンピュータビジョンにおける課題である。既存の手法は通常、2Dビジュアルバックボーン上にネットワークを構築し、トレーニングのためにラベル付きデータに大きく依存する。ロボットトポロジカルアライメントグラフ(RoboTAG)を提案する。このグラフは3次元分岐を組み込んで3次元前処理を注入し、2次元および3次元表現の共進化を可能にする。
論文参考訳（メタデータ） (2025-11-11T00:49:15Z)
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文参考訳（メタデータ） (2025-09-02T17:29:38Z)
Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-11-27T18:59:52Z)
Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文参考訳（メタデータ） (2024-09-29T10:46:19Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-12T11:34:43Z)
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文参考訳（メタデータ） (2023-07-17T04:55:02Z)
A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。 SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文参考訳（メタデータ） (2023-06-18T04:34:17Z)
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。 ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文参考訳（メタデータ） (2023-03-23T11:36:14Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文参考訳（メタデータ） (2022-06-16T10:45:17Z)
Extracting Zero-shot Common Sense from Large Language Models for Robot 3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文参考訳（メタデータ） (2022-06-09T16:05:35Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)
Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文参考訳（メタデータ） (2020-11-06T07:39:08Z)
Learning Object Placements For Relational Instructions by Hallucinating Scene Representations [26.897316325189205]
単一入力画像から空間関係の集合に対する画素単位の物体配置確率を推定するための畳み込みニューラルネットワークを提案する。本手法では,オブジェクトの画素関係確率や3次元モデルに対して,地上の真理データを必要としない。実世界のデータと人間ロボット実験を用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2020-01-23T12:58:50Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。