論文の概要: XDen-1K: A Density Field Dataset of Real-World Objects
- arxiv url: http://arxiv.org/abs/2512.10668v1
- Date: Thu, 11 Dec 2025 14:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.400776
- Title: XDen-1K: A Density Field Dataset of Real-World Objects
- Title(参考訳): XDen-1K:実世界の物体の密度場データセット
- Authors: Jingxuan Zhang, Tianqi Yu, Yatu Zhang, Jinze Wu, Kaixin Yao, Jingyang Liu, Yuyao Zhang, Jiayuan Gu, Jingyi Yu,
- Abstract要約: 実世界の物理的特性推定のために設計された最初のデータセットであるXDen-1Kを紹介する。
このデータセットの中核は、148のカテゴリにまたがる1,000の現実世界のオブジェクトで構成されている。
スパースX線ビューから各オブジェクトの高忠実度体積密度場を復元する新しい最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.479432547763025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep understanding of the physical world is a central goal for embodied AI and realistic simulation. While current models excel at capturing an object's surface geometry and appearance, they largely neglect its internal physical properties. This omission is critical, as properties like volumetric density are fundamental for predicting an object's center of mass, stability, and interaction dynamics in applications ranging from robotic manipulation to physical simulation. The primary bottleneck has been the absence of large-scale, real-world data. To bridge this gap, we introduce XDen-1K, the first large-scale, multi-modal dataset designed for real-world physical property estimation, with a particular focus on volumetric density. The core of this dataset consists of 1,000 real-world objects across 148 categories, for which we provide comprehensive multi-modal data, including a high-resolution 3D geometric model with part-level annotations and a corresponding set of real-world biplanar X-ray scans. Building upon this data, we introduce a novel optimization framework that recovers a high-fidelity volumetric density field of each object from its sparse X-ray views. To demonstrate its practical value, we add X-ray images as a conditioning signal to an existing segmentation network and perform volumetric segmentation. Furthermore, we conduct experiments on downstream robotics tasks. The results show that leveraging the dataset can effectively improve the accuracy of center-of-mass estimation and the success rate of robotic manipulation. We believe XDen-1K will serve as a foundational resource and a challenging new benchmark, catalyzing future research in physically grounded visual inference and embodied AI.
- Abstract(参考訳): 物理的な世界に対する深い理解は、AIと現実的なシミュレーションを具現化するための中心的な目標である。
現在のモデルは、物体の表面の幾何学と外観を捉えるのに優れているが、それらは内部の物理的性質をほとんど無視している。
体積密度のような性質は、ロボット操作から物理シミュレーションまで、物体の質量、安定性、相互作用のダイナミクスを予測するために基礎となるため、この省略は重要である。
主なボトルネックは、大規模な実世界のデータがないことである。
このギャップを埋めるために、実世界の物理特性推定のために設計された最初の大規模マルチモーダルデータセットであるXDen-1Kを導入し、特に体積密度に着目した。
このデータセットのコアは、148のカテゴリにまたがる1,000の現実世界のオブジェクトで構成されており、パートレベルのアノテーションを持つ高解像度3D幾何モデルと、それに対応する実世界のバイプレナーX線スキャンを含む、包括的なマルチモーダルデータを提供している。
このデータに基づいて,各オブジェクトの粗いX線ビューから高忠実度体積密度場を復元する新しい最適化フレームワークを提案する。
その実用的価値を示すために,既存のセグメンテーションネットワークに条件付信号としてX線画像を追加し,ボリュームセグメンテーションを行う。
さらに,下流ロボットのタスクについても実験を行った。
その結果,このデータセットを利用することで,重心推定の精度とロボット操作の成功率を効果的に向上できることが示唆された。
我々はXDen-1Kが基盤となるリソースとして機能し、新しいベンチマークとして挑戦し、物理的基盤の視覚的推論と具体化AIにおける将来の研究を触媒すると考えている。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。
そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
四脚ロボットの完全な枠組みを検証した。
論文 参考訳(メタデータ) (2025-08-24T17:47:56Z) - A large-scale, physically-based synthetic dataset for satellite pose estimation [0.0]
本稿では,ハッブル宇宙望遠鏡(HST)を対象とするDLVS3-HST-V1データセットについて述べる。
データセットは、高度なリアルタイムおよびオフラインレンダリング技術を使用して生成され、高忠実度3Dモデル、ダイナミックライティング、物理的に正確な材料特性を統合する。
このパイプラインは、6-DoFのポーズとキーポイントデータ、セマンティックセグメンテーション、深さ、正規マップを備えた大規模でリッチな注釈付きイメージセットの作成をサポートする。
論文 参考訳(メタデータ) (2025-06-15T09:24:32Z) - XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity [46.05421425745179]
XYZ-IBDは6Dポーズ推定のためのビンピッキングデータセットである。
ミリ精度アノテーションによる本物のロボット操作のシナリオを反映している。
データセットには15のテクスチャなし、金属で、ほとんど対称な形状と大きさのオブジェクトが含まれている。
論文 参考訳(メタデータ) (2025-05-31T15:15:27Z) - MBDS: A Multi-Body Dynamics Simulation Dataset for Graph Networks Simulators [4.5353840616537555]
物理現象をモデル化する主要な手法として,グラフネットワークシミュレータ (GNS) が登場している。
我々は,1D,2D,3Dシーンを含む高品質な物理シミュレーションデータセットを構築した。
私たちのデータセットの重要な特徴は、物理世界のより現実的なシミュレーションを促進する、正確な多体ダイナミクスを取り入れることである。
論文 参考訳(メタデータ) (2024-10-04T03:03:06Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。