Fugu-MT 論文翻訳(概要): ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via Online Exploration and Synthesis

論文の概要: ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via Online Exploration and Synthesis

arxiv url: http://arxiv.org/abs/2109.05488v1
Date: Sun, 12 Sep 2021 11:15:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 16:06:06.053653
Title: ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via Online Exploration and Synthesis
Title（参考訳）: ArtiBoost: オンライン探索と合成による3Dハンドオブジェクトの姿勢推定
Authors: Kailin Li, Lixin Yang, Xinyu Zhan, Jun Lv, Wenqiang Xu, Jiefeng Li, Cewu Lu
Abstract要約: ArtiBoostは、手動ポーズ推定をデータの観点から強化する軽量なオンラインデータ豊か化手法である。簡単な学習ベースラインネットワークにArtiBoostを適用し、いくつかのハンドオブジェクトベンチマークのパフォーマンス向上を実証する。
参考スコア（独自算出の注目度）: 38.54763542838848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating the articulated 3D hand-object pose from a single RGB image is a highly ambiguous and challenging problem requiring large-scale datasets that contain diverse hand poses, object poses, and camera viewpoints. Most real-world datasets lack this diversity. In contrast, synthetic datasets can easily ensure vast diversity, but learning from them is inefficient and suffers from heavy training consumption. To address the above issues, we propose ArtiBoost, a lightweight online data enrichment method that boosts articulated hand-object pose estimation from the data perspective. ArtiBoost is employed along with a real-world source dataset. During training, ArtiBoost alternatively performs data exploration and synthesis. ArtiBoost can cover various hand-object poses and camera viewpoints based on a Compositional hand-object Configuration and Viewpoint space (CCV-space) and can adaptively enrich the current hard-discernable samples by a mining strategy. We apply ArtiBoost on a simple learning baseline network and demonstrate the performance boost on several hand-object benchmarks. As an illustrative example, with ArtiBoost, even a simple baseline network can outperform the previous start-of-the-art based on Transformer on the HO3D dataset. Our code is available at https://github.com/MVIG-SJTU/ArtiBoost.
Abstract（参考訳）: 単一のRGB画像から3Dハンドオブジェクトの合成を推定することは、さまざまな手ポーズ、オブジェクトポーズ、カメラ視点を含む大規模なデータセットを必要とする非常に曖昧で困難な問題である。ほとんどの現実世界のデータセットには、この多様性がない。対照的に、合成データセットは幅広い多様性を容易に確保できるが、それらから学ぶことは非効率であり、重いトレーニング消費に悩まされる。上記の課題に対処するために,手動ポーズ推定をデータの観点から強化する軽量オンラインデータ豊か化手法であるArtiBoostを提案する。 ArtiBoostは、実世界のソースデータセットと一緒に使用される。訓練中、artiboostはデータ探索と合成を行う。 ArtiBoostは、構成的な手オブジェクト構成と視点空間(CCV-space)に基づいて、さまざまな手オブジェクトのポーズやカメラの視点をカバーでき、マイニング戦略によって現在の難しいサンプルを適応的に強化することができる。簡単な学習ベースラインネットワークにArtiBoostを適用し、いくつかのハンドオブジェクトベンチマークのパフォーマンス向上を示す。 ArtiBoostの例では、単純なベースラインネットワークでさえ、HO3Dデータセット上のTransformerに基づく前回の起動よりも優れています。私たちのコードはhttps://github.com/MVIG-SJTU/ArtiBoost.comから入手可能です。

関連論文リスト

HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文参考訳（メタデータ） (2025-01-06T08:48:17Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文参考訳（メタデータ） (2024-03-27T13:56:08Z)
Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data Augmentation and Consistency Training [54.074020740827855]
SSHPEは、高度なデータ拡張と簡潔な一貫性のトレーニング方法という、2つのコアから強化できることがわかった。このシンプルでコンパクトな設計は解釈可能であり、新しく発見された拡張の恩恵を受けやすい。本研究は,従来の人体画像,魚眼画像,人手画像に対するアプローチの優位性と汎用性を広く検証する。
論文参考訳（メタデータ） (2024-02-18T12:27:59Z)
Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文参考訳（メタデータ） (2022-12-15T18:56:53Z)
PoseScript: Linking 3D Human Poses and Natural Language [38.85620213438554]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文参考訳（メタデータ） (2022-10-21T08:18:49Z)
Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond Algorithms [31.2529724533643]
この研究は、アルゴリズム以外の3つの未探索視点からの最初の総合的なベンチマーク研究を示す。 31のデータセットの分析では、データサンプルの異なる影響が明らかになっている。比較的単純なモデルで3DPWテストセットで47.3mmのPA-MPJPEを実現する。
論文参考訳（メタデータ） (2022-09-21T17:39:53Z)
Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。 GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-10-14T17:49:42Z)
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文参考訳（メタデータ） (2020-07-21T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。