論文の概要: AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
- arxiv url: http://arxiv.org/abs/2503.18769v1
- Date: Mon, 24 Mar 2025 15:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:58.020800
- Title: AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
- Title(参考訳): AlphaSpace: 意味的トークン化とシンボリック推論によるロボット行動の実現
- Authors: Alan Dao, Dinh Bach Vu, Bui Quang Huy,
- Abstract要約: 本稿では,3次元空間ナビゲーションのための大規模言語モデル(LLM)の空間推論能力を向上する手法を提案する。
AlphaSpaceはセマンティックスベースのトークン化戦略を採用し、特定のセマンティックトークンを通じて高度情報を符号化し、主にシンボリックな合成推論データを統合する。
実験の結果、AlphaSpaceは操作サブタスクで既存のモデルよりも大幅に優れており、総精度は66.67%である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents AlphaSpace, a novel methodology designed to enhance the spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian space navigation. AlphaSpace employs a semantics-based tokenization strategy, encoding height information through specialized semantic tokens, and integrates primarily symbolic synthetic reasoning data. This approach enables LLMs to accurately manipulate objects by positioning them at specific [x, y, z] coordinates. Experimental results demonstrate that AlphaSpace significantly outperforms existing models on manipulation subtasks, achieving a total accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5 Sonnet.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の空間推論能力を高めるために設計されたAlphaSpaceを提案する。
AlphaSpaceはセマンティックスベースのトークン化戦略を採用し、特定のセマンティックトークンを通じて高度情報を符号化し、主にシンボリックな合成推論データを統合する。
このアプローチにより、LLMはオブジェクトを特定の[x, y, z]座標に配置することで、オブジェクトを正確に操作することができる。
実験の結果、AlphaSpaceは既存のサブタスクモデルよりも大幅に優れており、総精度は66.67%、GPT-4oは37.5%、Claude 3.5 Sonnetは29.17%である。
関連論文リスト
- SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [49.858348469657784]
本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。
セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Object-Oriented Material Classification and 3D Clustering for Improved Semantic Perception and Mapping in Mobile Robots [6.395242048226456]
本稿では,オブジェクト指向パイプライン上に構築されたRGB-D教材分類のための補足型ディープラーニング手法を提案する。
本研究では,3次元セマンティックシーンマッピングの最先端手法と比較して,材料分類と3次元クラスタリングの精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-08T16:25:01Z) - Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps [16.083092305930844]
Open-Vocabulary Mobile Manipulation (OVMM)は、自律ロボットにとって重要な機能である。
ゼロショット検出とグラウンドド認識機能を活用した新しいフレームワークを提案する。
我々は,10-DoFモバイル操作ロボットプラットフォームJSR-1を構築し,実世界のロボット実験で実証した。
論文 参考訳(メタデータ) (2024-06-26T07:06:42Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。