論文の概要: ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K
- arxiv url: http://arxiv.org/abs/2603.16866v1
- Date: Tue, 17 Mar 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.473388
- Title: ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K
- Title(参考訳): ManiTwin: データ生成対応のデジタルオブジェクトデータセットを100Kにスケールアップ
- Authors: Kaixuan Wang, Tianxing Chen, Jiawei Liu, Honghao Su, Shaolong Zhu, Minxuan Wang, Zixuan Li, Yue Chen, Huan-ang Gao, Yusen Qin, Jiawei Wang, Qixuan Zhang, Lan Xu, Jingyi Yu, Yao Mu, Ping Luo,
- Abstract要約: データ生成可能なデジタルオブジェクト双子を生成するパイプラインであるManiTwinを提案する。
我々は100Kの高品質な3Dアノテートを含むデータセットManiTwin-100Kを構築した。
ManiTwinは効率的なアセット合成とアノテーションのワークフローを提供する。
- 参考スコア(独自算出の注目度): 83.97657657382376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in simulation provides a useful foundation for scaling robotic manipulation capabilities. However, this paradigm often suffers from a lack of data-generation-ready digital assets, in both scale and diversity. In this work, we present ManiTwin, an automated and efficient pipeline for generating data-generation-ready digital object twins. Our pipeline transforms a single image into simulation-ready and semantically annotated 3D asset, enabling large-scale robotic manipulation data generation. Using this pipeline, we construct ManiTwin-100K, a dataset containing 100K high-quality annotated 3D assets. Each asset is equipped with physical properties, language descriptions, functional annotations, and verified manipulation proposals. Experiments demonstrate that ManiTwin provides an efficient asset synthesis and annotation workflow, and that ManiTwin-100K offers high-quality and diverse assets for manipulation data generation, random scene synthesis, and VQA data generation, establishing a strong foundation for scalable simulation data synthesis and policy learning. Our webpage is available at https://manitwin.github.io/.
- Abstract(参考訳): シミュレーションでの学習は、ロボット操作能力をスケーリングするための有用な基盤を提供する。
しかし、このパラダイムは、規模と多様性の両方において、データ生成可能なデジタル資産の欠如に悩まされることが多い。
本研究では,データ生成可能なディジタルオブジェクト双子を生成するための,自動かつ効率的なパイプラインであるManiTwinを提案する。
我々のパイプラインは、ひとつの画像をシミュレーション可能な意味的アノテーション付き3Dアセットに変換し、大規模なロボット操作データ生成を可能にします。
このパイプラインを用いて,100Kの高品質な3Dアノテートを含むデータセットであるManiTwin-100Kを構築した。
各アセットには、物理的プロパティ、言語記述、機能アノテーション、検証された操作提案が備わっている。
ManiTwinは効率的なアセット合成とアノテーションのワークフローを提供し、ManiTwin-100Kはデータ生成、ランダムシーン合成、VQAデータ生成を操作するための高品質で多様なアセットを提供し、スケーラブルなシミュレーションデータ合成とポリシー学習のための強力な基盤を確立している。
私たちのWebページはhttps://manitwin.github.io/.com/で公開されています。
関連論文リスト
- SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception [5.278929538141005]
我々は、ガイドドドメインランダム化機能を備えた合成画像生成のためのオープンソースのフレームワークであるSynthRenderをリリースした。
また, 実物の2次元画像から3次元のアセットを作成するために, 現実感とシミュレーションの手法のベンチマークを行った。
これらの合成資産は、3Dファイルが欠けている部分であっても、低オーバーヘッドで転送可能なデータを提供する。
論文 参考訳(メタデータ) (2026-02-24T17:42:34Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。