論文の概要: AKB-48: A Real-World Articulated Object Knowledge Base
- arxiv url: http://arxiv.org/abs/2202.08432v1
- Date: Thu, 17 Feb 2022 03:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 02:23:34.470800
- Title: AKB-48: A Real-World Articulated Object Knowledge Base
- Title(参考訳): AKB-48: 実世界のArticulated Object Knowledge Base
- Authors: Liu Liu, Wenqiang Xu, Haoyuan Fu, Sucheng Qian, Yang Han, Cewu Lu
- Abstract要約: 提案するAKB-48は,48種類の実世界2,037個のオブジェクトモデルからなる大規模Articulated Object Knowledge Baseである。
AKB-48を構築するために,約10~15分でArtiKGを満たす高速調音知識モデリング(FArM)パイプラインを提案する。
提案するAKBNetは,C-VAM(Calegory-level Visual Articulation Manipulation)タスクのための新しい積分パイプラインである。
- 参考スコア(独自算出の注目度): 38.4899076076656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human life is populated with articulated objects. A comprehensive
understanding of articulated objects, namely appearance, structure, physics
property, and semantics, will benefit many research communities. As current
articulated object understanding solutions are usually based on synthetic
object dataset with CAD models without physics properties, which prevent
satisfied generalization from simulation to real-world applications in visual
and robotics tasks. To bridge the gap, we present AKB-48: a large-scale
Articulated object Knowledge Base which consists of 2,037 real-world 3D
articulated object models of 48 categories. Each object is described by a
knowledge graph ArtiKG. To build the AKB-48, we present a fast articulation
knowledge modeling (FArM) pipeline, which can fulfill the ArtiKG for an
articulated object within 10-15 minutes, and largely reduce the cost for object
modeling in the real world. Using our dataset, we propose AKBNet, a novel
integral pipeline for Category-level Visual Articulation Manipulation (C-VAM)
task, in which we benchmark three sub-tasks, namely pose estimation, object
reconstruction and manipulation. Dataset, codes, and models will be publicly
available at https://liuliu66.github.io/articulationobjects/.
- Abstract(参考訳): 人間の生活は明瞭な物体で占められている。
表現された物体の包括的理解、すなわち外観、構造、物理学的性質、意味論は、多くの研究コミュニティに利益をもたらすだろう。
現在の調音オブジェクト理解ソリューションは、通常、物理特性のないCADモデルによる合成オブジェクトデータセットに基づいており、視覚およびロボット工学のタスクにおけるシミュレーションから実世界の応用への満足のいく一般化を防ぐ。
このギャップを埋めるために、48のカテゴリからなる実世界3次元関節オブジェクトモデル2,037からなる大規模関節オブジェクト知識ベースであるakb-48を提案する。
各オブジェクトは知識グラフArtiKGによって記述される。
akb-48を構築するために,高速な調音知識モデリング(farm)パイプラインを提案する。このパイプラインは10~15分で調音オブジェクトのarikgを満たし,実世界でのオブジェクトモデリングのコストを大幅に削減する。
提案するAKBNetは,C-VAM(Calegory-level Visual Articulation Manipulation)タスクのための新しい積分パイプラインであり,ポーズ推定,オブジェクト再構成,操作という3つのサブタスクをベンチマークする。
データセット、コード、モデルはhttps://liuliu66.github.io/articulationobjects/で公開されている。
関連論文リスト
- Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose
Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。
このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。
6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文 参考訳(メタデータ) (2023-08-02T23:59:59Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - ABO: Dataset and Benchmarks for Real-World 3D Object Understanding [43.42504014918771]
Amazon-Berkeley Objects (ABO)は、製品イメージと実際の家庭用オブジェクトに対応する3Dモデルの大規模なデータセットである。
合成オブジェクトをトレーニングした単一ビュー3D再構成ネットワークにおいて,ABOを用いてドメインギャップを測定する。
また、ABOのマルチビュー画像を用いて、異なるカメラ視点に対する最先端のメトリック学習アプローチの堅牢性を測定する。
論文 参考訳(メタデータ) (2021-10-12T17:52:42Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。