論文の概要: Arti-PG: A Toolbox for Procedurally Synthesizing Large-Scale and Diverse Articulated Objects with Rich Annotations
- arxiv url: http://arxiv.org/abs/2412.14974v1
- Date: Thu, 19 Dec 2024 15:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:04.409834
- Title: Arti-PG: A Toolbox for Procedurally Synthesizing Large-Scale and Diverse Articulated Objects with Rich Annotations
- Title(参考訳): Arti-PG: リッチアノテーションを用いた大規模および多種多種多義語を手続き的に合成するツールボックス
- Authors: Jianhua Sun, Yuxuan Li, Jiude Wei, Longfei Xu, Nange Wang, Yining Zhang, Cewu Lu,
- Abstract要約: 本稿ではArticulated Object Procedural Generation Toolbox(Articulated Object Procedural Generation Toolbox)を提案する。
Arti-PGは26種類の音節オブジェクトの手続き生成をサポートし、視覚と操作タスクの両方でアノテーションを提供する。
Arti-PGツールボックスをコミュニティで使用するために公開します。
- 参考スコア(独自算出の注目度): 41.54457853741178
- License:
- Abstract: The acquisition of substantial volumes of 3D articulated object data is expensive and time-consuming, and consequently the scarcity of 3D articulated object data becomes an obstacle for deep learning methods to achieve remarkable performance in various articulated object understanding tasks. Meanwhile, pairing these object data with detailed annotations to enable training for various tasks is also difficult and labor-intensive to achieve. In order to expeditiously gather a significant number of 3D articulated objects with comprehensive and detailed annotations for training, we propose Articulated Object Procedural Generation toolbox, a.k.a. Arti-PG toolbox. Arti-PG toolbox consists of i) descriptions of articulated objects by means of a generalized structure program along with their analytic correspondence to the objects' point cloud, ii) procedural rules about manipulations on the structure program to synthesize large-scale and diverse new articulated objects, and iii) mathematical descriptions of knowledge (e.g. affordance, semantics, etc.) to provide annotations to the synthesized object. Arti-PG has two appealing properties for providing training data for articulated object understanding tasks: i) objects are created with unlimited variations in shape through program-oriented structure manipulation, ii) Arti-PG is widely applicable to diverse tasks by easily providing comprehensive and detailed annotations. Arti-PG now supports the procedural generation of 26 categories of articulate objects and provides annotations across a wide range of both vision and manipulation tasks, and we provide exhaustive experiments which fully demonstrate its advantages. We will make Arti-PG toolbox publicly available for the community to use.
- Abstract(参考訳): 膨大な量の3次元音節データを取得することは高価で時間を要するため、3次元音節データの不足は深層学習手法の障害となり、様々な音節オブジェクト理解タスクにおいて顕著なパフォーマンスを達成する。
一方、これらのオブジェクトデータを詳細なアノテーションと組み合わせることで、さまざまなタスクのトレーニングを可能にすることも難しく、作業集約的です。
学習用アノテーションを包括的かつ詳細なアノテーションで多量の3D合成オブジェクトを迅速に収集するために,Articulated Object Procedural Generation Toolbox(Articulated Object Procedural Generation Toolbox,別名Arti-PG Toolbox)を提案する。
Arti-PGツールボックス
一 一般化された構造プログラムにより、対象物の点雲に対する解析的対応を図ったもの
二 大規模で多様な新調音オブジェクトを合成するための構造プログラムの操作に関する手続規則
三 合成対象物に対する注釈を提供するための知識(例えば、知識、意味論等)の数学的記述
Arti-PGは、明瞭なオブジェクト理解タスクのためのトレーニングデータを提供する2つの魅力的な特性を持っている。
一 プログラム指向の構造操作により、形を無限に変化させることにより、物を作成すること。
ii)Arti-PGは、包括的かつ詳細なアノテーションを提供することにより、多様なタスクに広く適用することができる。
現在Arti-PGは26種類の音節オブジェクトの手続き生成をサポートしており、視覚と操作タスクの広範囲にわたるアノテーションを提供しており、その利点を十分に証明する徹底的な実験を提供している。
Arti-PGツールボックスをコミュニティで使用するために公開します。
関連論文リスト
- Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling [48.78204955169967]
Articulate Anymeshは,剛性のある3Dメッシュを,オープンな語彙で表現されたものに変換可能な,自動フレームワークである。
実験の結果、Articulate Anymeshは、ツール、おもちゃ、機械装置、車両など、大規模で高品質な3D関節オブジェクトを生成できることがわかった。
論文 参考訳(メタデータ) (2025-02-04T18:59:55Z) - Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics [31.819336585007104]
境界ボックスに対する3次元オブジェクト表現の代替としてスーパークワッドリックを活用することを提案する。
テンプレートレスオブジェクト再構成とアクション認識の両タスクで有効性を示す。
また,動詞と名詞の訓練組み合わせがテスト分割と重複しない,より困難な課題を考慮し,行動の構成性についても検討した。
論文 参考訳(メタデータ) (2025-01-13T07:26:05Z) - Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding [44.206222326616526]
TACOは、日々の人間活動のための多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲なデータセットである。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
本研究は,構成動作認識,一般化可能なハンドオブジェクト動作予測,協調的グリップ合成という,汎用的な3つのハンドオブジェクトインタラクションタスクをベンチマークする。
論文 参考訳(メタデータ) (2024-01-16T14:41:42Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose
Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。
このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。
6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文 参考訳(メタデータ) (2023-08-02T23:59:59Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。