論文の概要: AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance?
- arxiv url: http://arxiv.org/abs/2506.07216v1
- Date: Sun, 08 Jun 2025 16:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.716226
- Title: AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance?
- Title(参考訳): AugmentGest: ランダムデータクロッピングはジェスチャー認識性能を高めるか?
- Authors: Nada Aboudeshish, Dmitry Ignatov, Radu Timofte,
- Abstract要約: 本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
- 参考スコア(独自算出の注目度): 49.64902130083662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a crucial technique in deep learning, particularly for tasks with limited dataset diversity, such as skeleton-based datasets. This paper proposes a comprehensive data augmentation framework that integrates geometric transformations, random cropping, rotation, zooming and intensity-based transformations, brightness and contrast adjustments to simulate real-world variations. Random cropping ensures the preservation of spatio-temporal integrity while addressing challenges such as viewpoint bias and occlusions. The augmentation pipeline generates three augmented versions for each sample in addition to the data set sample, thus quadrupling the data set size and enriching the diversity of gesture representations. The proposed augmentation strategy is evaluated on three models: multi-stream e2eET, FPPR point cloud-based hand gesture recognition (HGR), and DD-Network. Experiments are conducted on benchmark datasets including DHG14/28, SHREC'17, and JHMDB. The e2eET model, recognized as the state-of-the-art for hand gesture recognition on DHG14/28 and SHREC'17. The FPPR-PCD model, the second-best performing model on SHREC'17, excels in point cloud-based gesture recognition. DD-Net, a lightweight and efficient architecture for skeleton-based action recognition, is evaluated on SHREC'17 and the Human Motion Data Base (JHMDB). The results underline the effectiveness and versatility of the proposed augmentation strategy, significantly improving model generalization and robustness across diverse datasets and architectures. This framework not only establishes state-of-the-art results on all three evaluated models but also offers a scalable solution to advance HGR and action recognition applications in real-world scenarios. The framework is available at https://github.com/NadaAbodeshish/Random-Cropping-augmentation-HGR
- Abstract(参考訳): データ拡張は、特に骨格ベースのデータセットなど、データセットの多様性に制限のあるタスクにおいて、ディープラーニングにおいて重要なテクニックである。
本稿では, 幾何学的変換, ランダムトリミング, 回転, ズームング, 強度に基づく変換, 明るさ, コントラスト調整を統合し, 実世界の変動をシミュレートする包括的データ拡張フレームワークを提案する。
ランダムトリミングは、視点バイアスやオクルージョンといった課題に対処しながら、時空間的整合性の維持を保証する。
拡張パイプラインは、データセットサンプルに加えて、各サンプルに対して3つの拡張バージョンを生成し、データセットのサイズを4倍にし、ジェスチャー表現の多様性を高める。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
DHG14/28、SHREC'17、JHMDBなどのベンチマークデータセットで実験が行われた。
e2eETモデルはDHG14/28およびSHREC'17上での手ジェスチャー認識のための最先端技術として認識されている。
SHREC'17における2番目に高いパフォーマンスモデルであるFPPR-PCDモデルは、ポイントクラウドベースのジェスチャー認識に優れる。
DD-Netは骨格に基づく行動認識のための軽量で効率的なアーキテクチャであり、SHREC'17とHuman Motion Data Base (JHMDB)で評価されている。
その結果、提案した拡張戦略の有効性と汎用性を示し、多様なデータセットやアーキテクチャにおけるモデルの一般化とロバスト性を大幅に改善した。
このフレームワークは、評価された3つのモデルすべてに対して最先端の結果を確立するだけでなく、実世界のシナリオにおけるHGRとアクション認識アプリケーションを進化させるスケーラブルなソリューションも提供する。
フレームワークはhttps://github.com/NadaAbodeshish/Random-Cropping-augmentation-HGRで利用可能である。
関連論文リスト
- Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。
提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。
構造化変換によるトレーニングデータの拡大により,ドメイン間のモデル一般化が可能となる。
論文 参考訳(メタデータ) (2025-04-17T16:42:33Z) - Semantic Scene Completion with Multi-Feature Data Balancing Network [5.3431413737671525]
RGBおよび深度データ(F-TSDF)入力のためのデュアルヘッドモデルを提案する。
プリアクティベーション残余モジュールにおけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
論文 参考訳(メタデータ) (2024-12-02T12:12:21Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer [6.095342999639137]
視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T16:34:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - GPGait: Generalized Pose-based Gait Recognition [11.316545213493223]
ポーズに基づく歩行認識に関する最近の研究は、このような単純な情報を用いてシルエット法に匹敵する結果が得られる可能性を実証している。
データセット間のポーズに基づく手法の一般化能力を向上させるために,textbf Generalized textbfPose-based textbfGait Recognition frameworkを提案する。
論文 参考訳(メタデータ) (2023-03-09T13:17:13Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。