論文の概要: Using Motion History Images with 3D Convolutional Networks in Isolated
Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2110.12396v1
- Date: Sun, 24 Oct 2021 09:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:03:12.162975
- Title: Using Motion History Images with 3D Convolutional Networks in Isolated
Sign Language Recognition
- Title(参考訳): 孤立手話認識における3次元畳み込みネットワークを用いた運動履歴画像の利用
- Authors: Ozge Mercanoglu Sincan and Hacer Yalim Keles
- Abstract要約: 動作履歴画像(MHI)を用いたモデルに基づく手話認識手法を提案する。
RGB-MHIを3D-CNNアーキテクチャに組み込まれたモーションベースの空間アテンションモジュールとして使用する。
第2のアプローチでは、3D-CNNモデルの特徴を持つ後期融合技術でRGB-MHIモデルを直接使用する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language recognition using computational models is a challenging problem
that requires simultaneous spatio-temporal modeling of the multiple sources,
i.e. faces, hands, body etc. In this paper, we propose an isolated sign
language recognition model based on a model trained using Motion History Images
(MHI) that are generated from RGB video frames. RGB-MHI images represent
spatio-temporal summary of each sign video effectively in a single RGB image.
We propose two different approaches using this model. In the first approach, we
use RGB-MHI model as a motion-based spatial attention module integrated in a
3D-CNN architecture. In the second approach, we use RGB-MHI model features
directly with a late fusion technique with the features of a 3D-CNN model. We
perform extensive experiments on two recently released large-scale isolated
sign language datasets, namely AUTSL and BosphorusSign22k datasets. Our
experiments show that our models, which use only RGB data, can compete with the
state-of-the-art models in the literature that use multi-modal data.
- Abstract(参考訳): 計算モデルを用いた手話認識は、顔、手、体などの複数のソースの同時時空間モデリングを必要とする難しい問題である。
本稿では,RGBビデオフレームから生成されたモーションヒストリ画像(MHI)を用いて訓練されたモデルに基づく手話認識モデルを提案する。
rgb-mhi画像は、各手話映像の時空間的要約を単一のrgb画像で効果的に表現する。
このモデルを用いて2つの異なるアプローチを提案する。
最初のアプローチでは、3D-CNNアーキテクチャに組み込まれた動きに基づく空間アテンションモジュールとしてRGB-MHIモデルを用いる。
第2のアプローチでは、3D-CNNモデルの特徴を持つ後期融合技術でRGB-MHIモデルを直接使用する。
AUTSLとBosphorusSign22kという2つの大規模独立した手話データセットについて広範な実験を行った。
実験の結果,RGBデータのみを使用する我々のモデルは,マルチモーダルデータを使用する文献の最先端モデルと競合できることがわかった。
関連論文リスト
- LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - DiffusionSDF: Conditional Generative Modeling of Signed Distance
Functions [42.015077094731815]
DiffusionSDFは、形状の完全化、単一ビュー再構成、および実走査点雲の再構成のための生成モデルである。
我々は、ニューラルネットワークを介して様々な信号(点雲、2次元画像など)の幾何をパラメータ化するために、ニューラルネットワークに署名された距離関数(SDF)を用いる。
論文 参考訳(メタデータ) (2022-11-24T18:59:01Z) - Unified Object Detector for Different Modalities based on Vision
Transformers [1.14219428942199]
我々は様々なモードで優れた性能を実現する統一検出器を開発した。
我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-03T16:01:04Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Evaluation Of Hidden Markov Models Using Deep CNN Features In Isolated
Sign Recognition [6.320141734801679]
ビデオストリームから切り離されたサイン認識は、サインのマルチモーダルな性質のため、難しい問題である。
この問題は、最近、深層畳み込みニューラルネットワーク(CNN)ベースの機能とLong Short-Term Memory(LSTM)ベースのディープシーケンスモデルを用いて研究されている。
本研究では,3つのモジュールから構成されるフレームワークを用いて,異なるシーケンスモデルを用いた手話認識問題の解法を提案する。
論文 参考訳(メタデータ) (2020-06-19T15:18:03Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。