論文の概要: AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI
- arxiv url: http://arxiv.org/abs/2604.23018v1
- Date: Fri, 24 Apr 2026 21:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.103088
- Title: AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI
- Title(参考訳): AmaraSpatial-10K:空間コンピューティングとエンボダイドAIのための空間的・セマンティックな3Dデータセット
- Authors: Mohammad Sadegh Salehi, Alex Perkins, Igor Maurell, Ashkan Dabbagh, Raymond Wong,
- Abstract要約: AmaraSpatial-10Kは、ボリュームのみではなく、下流での使用のために設計された1万以上の合成3D資産のデータセットである。
データセットは屋内の物体、車両、建築、生物、プロップにまたがる。
AmaraSpatial-10Kはテキストベースの検索精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web-scale 3D asset collections are abundant, but rarely deployment-ready. Assets ship with arbitrary metric scale, incorrect pivots and forward axes, brittle geometry, and textures that do not support relighting, which limits their utility for embodied AI, robotics simulation, game development, and AR/VR. We present AmaraSpatial-10K, a dataset of over 10,000 synthetic 3D assets designed for downstream use rather than volume alone. Each asset is released as a metric-scaled, semantically anchored .glb with separated PBR material maps, a convex collision hull, a paired reference image, and rich multi-sentence text metadata. The dataset spans indoor objects, vehicles, architecture, creatures, and props under a unified spatial convention. Alongside the dataset, we introduce an evaluation suite for 3D asset banks. The suite comprises a continuous Scale Plausibility Score (SPS) with an LLM-as-Judge interval protocol, an LLM Concept Density score for metadata, an anchor-error metric, and a cross-modal CLIP coherence protocol, and we use it to audit AmaraSpatial-10K alongside matched subsets from Objaverse, HSSD, ABO, and GSO. Compared with Objaverse-sourced assets, we demonstrate that AmaraSpatial-10K substantially improves text-based retrieval precision (CLIP Recall@5 of 0.612 vs 0.181, a 3.4x improvement with median rank falling from 267 to 3), and we establish that it satisfies the spatial and semantic prerequisites for physics-aware scene composition and embodied-AI asset banks, leaving those downstream evaluations to future work. AmaraSpatial-10K is publicly available on Hugging Face.
- Abstract(参考訳): Webスケールの3Dアセットコレクションは豊富だが、デプロイ対応はめったにない。
アセットには任意のメートル法スケール、不正なピボットと前方軸、脆い幾何学、照明をサポートしないテクスチャが備わっており、AI、ロボットシミュレーション、ゲーム開発、AR/VRの用途に制限されている。
AmaraSpatial-10Kは1万以上の合成3D資産のデータセットで、体積のみではなく下流での使用を目的として設計されている。
各アセットは、メトリックスケール、セマンティックアンカーとしてリリースされます。
glbは、分離されたPBR素材マップ、凸衝突船体、ペア化された参照画像、リッチな多文テキストメタデータを持つ。
データセットは屋内の物体、車両、建築、生物、プロップにまたがる。
データセットに加えて、3Dアセットバンクの評価スイートも導入する。
このスイートは、LLM-as-Judge間隔プロトコル、メタデータのLLM概念密度スコア、アンカーエラーメトリック、およびクロスモーダルCLIPコヒーレンスプロトコルを備えた連続スケールプラウザビリティスコア(SPS)で構成され、Objaverse、HSSD、ABO、GSOのマッチングサブセットと合わせてAmaraSpatial-10Kを監査する。
その結果,AmaraSpatial-10Kはテキストベースの検索精度(CLIP Recall@5, 0.612 vs 0.181)を大幅に向上し,中央値が267~3に低下した3.4倍の改善を実現し,物理対応シーン構成や具体化AIアセットバンクの空間的・意味的要件を満たすことを確認した。
AmaraSpatial-10KはHugging Faceで公開されている。
関連論文リスト
- An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving [25.37985701473846]
本稿では,3次元パノプティカル占有予測タスクのインスタンス中心ベンチマークを提案する。
具体的には、自律運転に適した最初の統合3DメッシュライブラリであるADMeshを紹介する。
大規模で物理的に一貫した汎光学占有データセットであるCarlaOccを構築した。
論文 参考訳(メタデータ) (2026-03-28T11:22:31Z) - Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。