論文の概要: Using Motion History Images with 3D Convolutional Networks in Isolated
Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2110.12396v1
- Date: Sun, 24 Oct 2021 09:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:03:12.162975
- Title: Using Motion History Images with 3D Convolutional Networks in Isolated
Sign Language Recognition
- Title(参考訳): 孤立手話認識における3次元畳み込みネットワークを用いた運動履歴画像の利用
- Authors: Ozge Mercanoglu Sincan and Hacer Yalim Keles
- Abstract要約: 動作履歴画像(MHI)を用いたモデルに基づく手話認識手法を提案する。
RGB-MHIを3D-CNNアーキテクチャに組み込まれたモーションベースの空間アテンションモジュールとして使用する。
第2のアプローチでは、3D-CNNモデルの特徴を持つ後期融合技術でRGB-MHIモデルを直接使用する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language recognition using computational models is a challenging problem
that requires simultaneous spatio-temporal modeling of the multiple sources,
i.e. faces, hands, body etc. In this paper, we propose an isolated sign
language recognition model based on a model trained using Motion History Images
(MHI) that are generated from RGB video frames. RGB-MHI images represent
spatio-temporal summary of each sign video effectively in a single RGB image.
We propose two different approaches using this model. In the first approach, we
use RGB-MHI model as a motion-based spatial attention module integrated in a
3D-CNN architecture. In the second approach, we use RGB-MHI model features
directly with a late fusion technique with the features of a 3D-CNN model. We
perform extensive experiments on two recently released large-scale isolated
sign language datasets, namely AUTSL and BosphorusSign22k datasets. Our
experiments show that our models, which use only RGB data, can compete with the
state-of-the-art models in the literature that use multi-modal data.
- Abstract(参考訳): 計算モデルを用いた手話認識は、顔、手、体などの複数のソースの同時時空間モデリングを必要とする難しい問題である。
本稿では,RGBビデオフレームから生成されたモーションヒストリ画像(MHI)を用いて訓練されたモデルに基づく手話認識モデルを提案する。
rgb-mhi画像は、各手話映像の時空間的要約を単一のrgb画像で効果的に表現する。
このモデルを用いて2つの異なるアプローチを提案する。
最初のアプローチでは、3D-CNNアーキテクチャに組み込まれた動きに基づく空間アテンションモジュールとしてRGB-MHIモデルを用いる。
第2のアプローチでは、3D-CNNモデルの特徴を持つ後期融合技術でRGB-MHIモデルを直接使用する。
AUTSLとBosphorusSign22kという2つの大規模独立した手話データセットについて広範な実験を行った。
実験の結果,RGBデータのみを使用する我々のモデルは,マルチモーダルデータを使用する文献の最先端モデルと競合できることがわかった。
関連論文リスト
- PixelBytes: Catching Unified Representation for Multimodal Generation [0.0]
PixelBytesは、統合マルチモーダル表現学習のためのアプローチである。
我々は,テキスト,音声,動作状態,画素画像の凝集表現への統合について検討する。
我々はPixelBytes PokemonデータセットとOptimal-Controlデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-16T09:20:13Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - DiffusionSDF: Conditional Generative Modeling of Signed Distance
Functions [42.015077094731815]
DiffusionSDFは、形状の完全化、単一ビュー再構成、および実走査点雲の再構成のための生成モデルである。
我々は、ニューラルネットワークを介して様々な信号(点雲、2次元画像など)の幾何をパラメータ化するために、ニューラルネットワークに署名された距離関数(SDF)を用いる。
論文 参考訳(メタデータ) (2022-11-24T18:59:01Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。