論文の概要: Action Recognition Utilizing YGAR Dataset
- arxiv url: http://arxiv.org/abs/2310.00831v1
- Date: Mon, 2 Oct 2023 00:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:39:09.250099
- Title: Action Recognition Utilizing YGAR Dataset
- Title(参考訳): YGARデータセットを用いた行動認識
- Authors: Shuo Wang, Amiya Ranjan and Lawrence Jiang
- Abstract要約: 高品質なアクションビデオデータの不足は、アクション認識の研究と応用においてボトルネックとなっている。
本稿では,新しい3次元アクションデータシミュレーションエンジンを提案し,その機能を示すために3組のサンプルデータを生成する。
- 参考スコア(独自算出の注目度): 5.922172844641853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of high quality actions video data is a bottleneck in the
research and application of action recognition. Although significant effort has
been made in this area, there still exist gaps in the range of available data
types a more flexible and comprehensive data set could help bridge. In this
paper, we present a new 3D actions data simulation engine and generate 3 sets
of sample data to demonstrate its current functionalities. With the new data
generation process, we demonstrate its applications to image classifications,
action recognitions and potential to evolve into a system that would allow the
exploration of much more complex action recognition tasks. In order to show off
these capabilities, we also train and test a list of commonly used models for
image recognition to demonstrate the potential applications and capabilities of
the data sets and their generation process.
- Abstract(参考訳): 高品質なアクションビデオデータの不足は、アクション認識の研究と応用におけるボトルネックである。
この領域ではかなりの努力がなされているが、利用可能なデータタイプの範囲には、より柔軟で包括的なデータセットが橋渡しに役立つギャップがある。
本稿では,新しい3次元アクションデータシミュレーションエンジンを提案し,その機能を示すために3組のサンプルデータを生成する。
新しいデータ生成プロセスでは、画像の分類、行動認識、そしてより複雑な行動認識タスクの探索を可能にするシステムへと進化する可能性を実証する。
これらの機能を示すために、画像認識のための一般的なモデルのリストをトレーニングし、テストし、データセットとその生成プロセスの潜在的な応用と能力を示す。
関連論文リスト
- Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - 3D objects and scenes classification, recognition, segmentation, and
reconstruction using 3D point cloud data: A review [5.85206759397617]
3次元(3D)点雲解析は、現実的な画像やマシンビジョンにおいて魅力的な対象の1つとなっている。
最近、ディープラーニングモデルのような様々な技術を用いて、新しい戦略の開発に多大な努力が注がれている。
オブジェクトやシーンの検出,認識,セグメンテーション,再構築など,3Dポイントで行うさまざまなタスクについて検討した。
論文 参考訳(メタデータ) (2023-06-09T15:45:23Z) - SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture
Emotion Recognition [12.396844568607522]
我々は、既存のデータセットの分析に基づいて、新しい同質なマルチモーダルジェスチャー感情認識データセットをラベル付けする。
本稿では,このデータセットに基づく擬似二重フローネットワークを提案し,このデータセットの適用可能性を検証する。
論文 参考訳(メタデータ) (2023-04-28T09:32:09Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Spatial-Temporal Alignment Network for Action Recognition and Detection [80.19235282200697]
本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
論文 参考訳(メタデータ) (2020-12-04T06:23:40Z) - DeepActsNet: Spatial and Motion features from Face, Hands, and Body
Combined with Convolutional and Graph Networks for Improved Action
Recognition [10.690794159983199]
本稿では,ビデオシーケンスからのアクションをエンコードする新しいデータ表現である"Deep Action Stamps (DeepActs)"を提案する。
深層学習に基づくアンサンブルモデルである"DeepActsNet"も提案する。
論文 参考訳(メタデータ) (2020-09-21T12:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。