論文の概要: BABEL: Bodies, Action and Behavior with English Labels
- arxiv url: http://arxiv.org/abs/2106.09696v1
- Date: Thu, 17 Jun 2021 17:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:59:13.045706
- Title: BABEL: Bodies, Action and Behavior with English Labels
- Title(参考訳): BABEL: 英語ラベルによる身体・行動・行動
- Authors: Abhinanda R. Punnakkal (1), Arjun Chandrasekaran (1), Nikos Athanasiou
(1), Alejandra Quiros-Ramirez (2), Michael J. Black (1) ((1) Max Planck
Institute for Intelligent Systems, (2) Universitat Konstanz)
- Abstract要約: モーキャップシーケンスで実行される動作を記述した言語ラベル付き大規模データセットであるBABELを提案する。
BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。
ベンチマークとしてBABELの価値を実証し、3次元動作認識におけるモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 53.83774092560076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the semantics of human movement -- the what, how and why of the
movement -- is an important problem that requires datasets of human actions
with semantic labels. Existing datasets take one of two approaches. Large-scale
video datasets contain many action labels but do not contain ground-truth 3D
human motion. Alternatively, motion-capture (mocap) datasets have precise body
motions but are limited to a small number of actions. To address this, we
present BABEL, a large dataset with language labels describing the actions
being performed in mocap sequences. BABEL consists of action labels for about
43 hours of mocap sequences from AMASS. Action labels are at two levels of
abstraction -- sequence labels describe the overall action in the sequence, and
frame labels describe all actions in every frame of the sequence. Each frame
label is precisely aligned with the duration of the corresponding action in the
mocap sequence, and multiple actions can overlap. There are over 28k sequence
labels, and 63k frame labels in BABEL, which belong to over 250 unique action
categories. Labels from BABEL can be leveraged for tasks like action
recognition, temporal action localization, motion synthesis, etc. To
demonstrate the value of BABEL as a benchmark, we evaluate the performance of
models on 3D action recognition. We demonstrate that BABEL poses interesting
learning challenges that are applicable to real-world scenarios, and can serve
as a useful benchmark of progress in 3D action recognition. The dataset,
baseline method, and evaluation code is made available, and supported for
academic research purposes at https://babel.is.tue.mpg.de/.
- Abstract(参考訳): 人間の動きのセマンティクス(動作の意味、方法、理由)を理解することは、人間の行動のデータセットとセマンティクスラベルを必要とする重要な問題である。
既存のデータセットには2つのアプローチがある。
大規模ビデオデータセットは多くのアクションラベルを含んでいるが、地上の3d人間の動きは含まない。
あるいは、モーションキャプチャ(mocap)データセットは正確な身体の動きを持つが、少数のアクションに限定される。
そこで本研究では,モーキャップシーケンスで実行される動作を記述する言語ラベル付き大規模データセットBABELを提案する。
BABELはAMASSから約43時間のモーキャップ配列のアクションラベルで構成されている。
シーケンスラベルはシーケンス内の全体的なアクションを記述し、フレームラベルはシーケンスの各フレームにおけるすべてのアクションを記述します。
各フレームラベルは、mocapシーケンスにおける対応するアクションの持続時間と正確に一致しており、複数のアクションが重なり合うことができる。
BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。
BABELのラベルは、アクション認識、時間的アクションローカライゼーション、モーション合成などのタスクに利用することができる。
BABELをベンチマークとして評価するために,3次元動作認識モデルの性能評価を行った。
我々は,BABELが実世界のシナリオに適用可能な興味深い学習課題を提起し,三次元行動認識の進歩の有用なベンチマークとなることを実証した。
データセット、ベースラインメソッド、評価コードは利用可能で、学術研究目的でhttps://babel.is.tue.mpg.de/でサポートされている。
関連論文リスト
- Bayesian-guided Label Mapping for Visual Reprogramming [20.27639343292564]
1対1のマッピングは、事前訓練されたラベルと下流のラベルの間の複雑な関係を見落としてしまう可能性がある。
この観測により,ベイズ誘導ラベルマッピング法(BLM)を提案する。
事前訓練されたビジョンモデル(ResNeXtなど)とビジョン言語モデル(CLIPなど)の両方で実施された実験は、既存のラベルマッピング手法よりもBLMの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-31T15:20:43Z) - MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D
Object Detection [59.1417156002086]
MixSupは、大量の安価な粗いラベルと、Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する、より実用的なパラダイムである。
MixSupは、安価なクラスタアノテーションと10%のボックスアノテーションを使用して、完全な教師付きパフォーマンスの97.31%を達成している。
論文 参考訳(メタデータ) (2024-01-29T17:05:19Z) - LABELMAKER: Automatic Semantic Label Generation from RGB-D Trajectories [59.14011485494713]
この研究は、完全に自動化された2D/3Dラベリングフレームワークを導入し、RGB-Dスキャンのラベルを同等(あるいはそれ以上)の精度で生成できる。
我々は、ScanNetデータセットのラベルを大幅に改善し、これまでラベル付けされていなかったARKitScenesデータセットを自動的にラベル付けすることで、LabelMakerパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-20T20:40:24Z) - Unleashing the Power of Shared Label Structures for Human Activity
Recognition [36.66107380956779]
SHAREは,異なる活動のためのラベル名の共有構造を考慮に入れたフレームワークである。
共有構造を利用するために、SHAREは入力感覚時系列から特徴を抽出するエンコーダと、ラベル名をトークンシーケンスとして生成するデコーダとを備える。
また,モデルが活動全体にわたって意味的構造をより効果的に捉えるのに役立つ3つのラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-01T22:50:08Z) - An Action Is Worth Multiple Words: Handling Ambiguity in Action
Recognition [18.937012620464465]
単一正の学習ラベルのみから複数ラベルの行動認識モデルを訓練する上での課題に対処する。
列車内の類似事例からサンプル化した擬似訓練例を生成するための2つの手法を提案する。
複数の動詞ラベルでEPIC-Kitchens-100の検証セットのサブセットを手動でアノテートすることで、新しい評価ベンチマークを作成する。
論文 参考訳(メタデータ) (2022-10-10T18:06:43Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Take an Emotion Walk: Perceiving Emotions from Gaits Using Hierarchical Attention Pooling and Affective Mapping [55.72376663488104]
本稿では、ビデオやモーションキャプチャーデータから得られた歩行スタイルから、知覚された人間の感情を分類するためのオートエンコーダに基づくアプローチを提案する。
3次元ポーズシーケンスから抽出した各ステップのポーズにおける各関節の動きを考慮し、これらの関節の動きをエンコーダに階層的にプールする。
我々はデコーダを訓練し、潜伏埋め込みからトップダウン方式で1ステップ当たりの関節の動きを再構築する。
論文 参考訳(メタデータ) (2019-11-20T05:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。