論文の概要: ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via
Online Exploration and Synthesis
- arxiv url: http://arxiv.org/abs/2109.05488v1
- Date: Sun, 12 Sep 2021 11:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:06:06.053653
- Title: ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via
Online Exploration and Synthesis
- Title(参考訳): ArtiBoost: オンライン探索と合成による3Dハンドオブジェクトの姿勢推定
- Authors: Kailin Li, Lixin Yang, Xinyu Zhan, Jun Lv, Wenqiang Xu, Jiefeng Li,
Cewu Lu
- Abstract要約: ArtiBoostは、手動ポーズ推定をデータの観点から強化する軽量なオンラインデータ豊か化手法である。
簡単な学習ベースラインネットワークにArtiBoostを適用し、いくつかのハンドオブジェクトベンチマークのパフォーマンス向上を実証する。
- 参考スコア(独自算出の注目度): 38.54763542838848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the articulated 3D hand-object pose from a single RGB image is a
highly ambiguous and challenging problem requiring large-scale datasets that
contain diverse hand poses, object poses, and camera viewpoints. Most
real-world datasets lack this diversity. In contrast, synthetic datasets can
easily ensure vast diversity, but learning from them is inefficient and suffers
from heavy training consumption. To address the above issues, we propose
ArtiBoost, a lightweight online data enrichment method that boosts articulated
hand-object pose estimation from the data perspective. ArtiBoost is employed
along with a real-world source dataset. During training, ArtiBoost
alternatively performs data exploration and synthesis. ArtiBoost can cover
various hand-object poses and camera viewpoints based on a Compositional
hand-object Configuration and Viewpoint space (CCV-space) and can adaptively
enrich the current hard-discernable samples by a mining strategy. We apply
ArtiBoost on a simple learning baseline network and demonstrate the performance
boost on several hand-object benchmarks. As an illustrative example, with
ArtiBoost, even a simple baseline network can outperform the previous
start-of-the-art based on Transformer on the HO3D dataset. Our code is
available at https://github.com/MVIG-SJTU/ArtiBoost.
- Abstract(参考訳): 単一のRGB画像から3Dハンドオブジェクトの合成を推定することは、さまざまな手ポーズ、オブジェクトポーズ、カメラ視点を含む大規模なデータセットを必要とする非常に曖昧で困難な問題である。
ほとんどの現実世界のデータセットには、この多様性がない。
対照的に、合成データセットは幅広い多様性を容易に確保できるが、それらから学ぶことは非効率であり、重いトレーニング消費に悩まされる。
上記の課題に対処するために,手動ポーズ推定をデータの観点から強化する軽量オンラインデータ豊か化手法であるArtiBoostを提案する。
ArtiBoostは、実世界のソースデータセットと一緒に使用される。
訓練中、artiboostはデータ探索と合成を行う。
ArtiBoostは、構成的な手オブジェクト構成と視点空間(CCV-space)に基づいて、さまざまな手オブジェクトのポーズやカメラの視点をカバーでき、マイニング戦略によって現在の難しいサンプルを適応的に強化することができる。
簡単な学習ベースラインネットワークにArtiBoostを適用し、いくつかのハンドオブジェクトベンチマークのパフォーマンス向上を示す。
ArtiBoostの例では、単純なベースラインネットワークでさえ、HO3Dデータセット上のTransformerに基づく前回の起動よりも優れています。
私たちのコードはhttps://github.com/MVIG-SJTU/ArtiBoost.comから入手可能です。
関連論文リスト
- PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal
3D Human Pose Estimation [33.53821868456018]
我々は、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelと呼ばれるパイプラインを開発した。
難シナリオにおける3次元ポーズラベルのアノテートという課題を克服するため,我々は合成データセット生成装置を開発した。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [67.1783384610417]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。
多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2022-12-15T18:56:53Z) - PoseScript: Linking 3D Human Poses and Natural Language [33.325778872898866]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z) - Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond
Algorithms [31.2529724533643]
この研究は、アルゴリズム以外の3つの未探索視点からの最初の総合的なベンチマーク研究を示す。
31のデータセットの分析では、データサンプルの異なる影響が明らかになっている。
比較的単純なモデルで3DPWテストセットで47.3mmのPA-MPJPEを実現する。
論文 参考訳(メタデータ) (2022-09-21T17:39:53Z) - Understanding Egocentric Hand-Object Interactions from Hand Pose
Estimation [24.68535915849555]
本稿では,エゴセントリックな画像を含むデータセットをペアワイズにラベル付けする手法を提案する。
また、収集したペアワイズデータを用いて、効率的なエンコーダ-デコーダスタイルのネットワークをトレーニングします。
論文 参考訳(メタデータ) (2021-09-29T18:34:06Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。