論文の概要: FLAG3D: A 3D Fitness Activity Dataset with Language Instruction
- arxiv url: http://arxiv.org/abs/2212.04638v2
- Date: Wed, 19 Apr 2023 13:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 17:29:56.942809
- Title: FLAG3D: A 3D Fitness Activity Dataset with Language Instruction
- Title(参考訳): FLAG3D: 言語指導を伴う3次元フィットネスアクティビティデータセット
- Authors: Yansong Tang, Jinpeng Liu, Aoyang Liu, Bin Yang, Wenxun Dai, Yongming
Rao, Jiwen Lu, Jie Zhou, Xiu Li
- Abstract要約: FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
- 参考スコア(独自算出の注目度): 89.60371681477791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuously thriving popularity around the world, fitness activity
analytic has become an emerging research topic in computer vision. While a
variety of new tasks and algorithms have been proposed recently, there are
growing hunger for data resources involved in high-quality data, fine-grained
labels, and diverse environments. In this paper, we present FLAG3D, a
large-scale 3D fitness activity dataset with language instruction containing
180K sequences of 60 categories. FLAG3D features the following three aspects:
1) accurate and dense 3D human pose captured from advanced MoCap system to
handle the complex activity and large movement, 2) detailed and professional
language instruction to describe how to perform a specific activity, 3)
versatile video resources from a high-tech MoCap system, rendering software,
and cost-effective smartphones in natural environments. Extensive experiments
and in-depth analysis show that FLAG3D contributes great research value for
various challenges, such as cross-domain human action recognition, dynamic
human mesh recovery, and language-guided human action generation. Our dataset
and source code are publicly available at https://andytang15.github.io/FLAG3D.
- Abstract(参考訳): 世界中の人気が続き、フィットネスアクティビティ分析はコンピュータビジョンにおける新たな研究テーマとなっている。
最近、様々な新しいタスクやアルゴリズムが提案されているが、高品質データ、きめ細かいラベル、多様な環境に関わるデータリソースの飢えが増えている。
本稿では,60カテゴリの180Kシーケンスを含む言語命令付き大規模3DフィットネスアクティビティデータセットFLAG3Dを提案する。
FLAG3Dには以下の3つの側面がある。
1) 複雑な活動と大きな動きを扱うため, 高度MoCapシステムから捉えた高精度で高密度な3Dポーズ。
2)特定の活動の実施方法を記述するための詳細かつ専門的な言語指導
3) 高精細なMoCapシステム,レンダリングソフトウェア,自然環境におけるコスト効率のよいスマートフォンからの多用途ビデオリソース。
広範囲にわたる実験と詳細な分析により、FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導されたヒューマンアクション生成など、さまざまな課題に対して大きな研究価値をもたらすことが示されている。
データセットとソースコードはhttps://andytang15.github.io/FLAG3D.comで公開されています。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - PresSim: An End-to-end Framework for Dynamic Ground Pressure Profile
Generation from Monocular Videos Using Physics-based 3D Simulation [8.107762252448195]
人体が受ける地圧は、広汎なセンシングにおいて、人間の活動認識(HAR)にとって貴重な情報源である。
本稿では,人間の活動のビデオからセンサデータを合成し,その労力を大幅に削減する,新しいエンドツーエンドフレームワークPresSimを提案する。
論文 参考訳(メタデータ) (2023-02-01T12:02:04Z) - Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。
多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2022-12-15T18:56:53Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。