論文の概要: Towards Real-World Category-level Articulation Pose Estimation
- arxiv url: http://arxiv.org/abs/2105.03260v1
- Date: Fri, 7 May 2021 13:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:10:33.689066
- Title: Towards Real-World Category-level Articulation Pose Estimation
- Title(参考訳): 実世界のカテゴリーレベル調音ポーズ推定に向けて
- Authors: Liu Liu, Han Xue, Wenqiang Xu, Haoyuan Fu, Cewu Lu
- Abstract要約: カテゴリレベルの調音量推定(CAPE)法は、各カテゴリの固定キネマティック構造を有する単一インスタンス設定の下で研究される。
これらの制約を考慮して,この問題を実環境環境に適用し,cape-real(caper)タスク設定を提案する。
この設定により、意味圏内の様々なキネマティック構造が可能となり、複数のインスタンスが現実世界の観察において共存する。
- 参考スコア(独自算出の注目度): 46.813224754603866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human life is populated with articulated objects. Current Category-level
Articulation Pose Estimation (CAPE) methods are studied under the
single-instance setting with a fixed kinematic structure for each category.
Considering these limitations, we reform this problem setting for real-world
environments and suggest a CAPE-Real (CAPER) task setting. This setting allows
varied kinematic structures within a semantic category, and multiple instances
to co-exist in an observation of real world. To support this task, we build an
articulated model repository ReArt-48 and present an efficient dataset
generation pipeline, which contains Fast Articulated Object Modeling (FAOM) and
Semi-Authentic MixEd Reality Technique (SAMERT). Accompanying the pipeline, we
build a large-scale mixed reality dataset ReArtMix and a real world dataset
ReArtVal. We also propose an effective framework ReArtNOCS that exploits RGB-D
input to estimate part-level pose for multiple instances in a single forward
pass. Extensive experiments demonstrate that the proposed ReArtNOCS can achieve
good performance on both CAPER and CAPE settings. We believe it could serve as
a strong baseline for future research on the CAPER task.
- Abstract(参考訳): 人間の生活は明瞭な物体で占められている。
現在のカテゴリーレベルのArticulation Pose Estimation (CAPE) 法は, 各カテゴリに対して一定の運動構造を持つ単一インスタンス環境下で研究されている。
これらの制約を考慮して,この問題を実環境環境に適用し,cape-real(caper)タスク設定を提案する。
この設定により、意味圏内の様々なキネマティック構造が可能となり、実世界の観察において複数のインスタンスが共存する。
このタスクを支援するために,ReArt-48 を用いたモデルリポジトリを構築し,Fast Articulated Object Modeling (FAOM) と Semi-Authentic MixEd Reality Technique (SAMERT) を含む効率的なデータセット生成パイプラインを提案する。
パイプラインと合わせて、大規模な混合現実データセットReArtMixと現実世界データセットReArtValを構築します。
また,RGB-Dインプットを有効活用して,複数インスタンスの複数ポーズを1回のフォワードパスで推定するフレームワークReArtNOCSを提案する。
大規模な実験により、提案されたReArtNOCSは、CAPERとCAPEの両方で優れた性能を達成できることが示された。
CAPERタスクの今後の研究の強力なベースラインとして機能すると考えています。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - NeuSurfEmb: A Complete Pipeline for Dense Correspondence-based 6D Object Pose Estimation without CAD Models [34.898217885820614]
CADモデルを必要とせず、入力として少数の実画像のみを必要とする最先端のポーズ推定器を訓練できるパイプラインを提案する。
提案手法は,Structure-from-Motion (SfM) とオブジェクトに依存しないセグメンテーションに基づいて,半自動で学習するNeuS2オブジェクト表現に基づいている。
提案手法をLINEMOD-Occlusionデータセット上で評価し,各コンポーネントの影響を広範囲に検討し,CADモデルとPBRデータに基づくアプローチによる競合性能を示す。
論文 参考訳(メタデータ) (2024-07-16T22:48:22Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - CoDEPS: Online Continual Learning for Depth Estimation and Panoptic
Segmentation [28.782231314289174]
深層学習に基づく単眼深度推定とパノプティックセグメンテーションのための連続学習をオンラインで導入する。
そこで本研究では,パノプティカルセグメンテーションに適応する擬似ラベルを生成するための新しいドメイン混合手法を提案する。
我々は,固定サイズのリプレイバッファを構築するためのサンプリング戦略を活用することで,ロボットシステムの限られたストレージ容量に明示的に対処する。
論文 参考訳(メタデータ) (2023-03-17T17:31:55Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。