Fugu-MT 論文翻訳(概要): Temporal Accumulative Features for Sign Language Recognition

論文の概要: Temporal Accumulative Features for Sign Language Recognition

arxiv url: http://arxiv.org/abs/2004.01225v1
Date: Thu, 2 Apr 2020 19:03:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 13:06:38.890250
Title: Temporal Accumulative Features for Sign Language Recognition
Title（参考訳）: 手話認識のための時間的蓄積特徴
Authors: Ahmet Alp K{\i}nd{\i}ro\u{g}lu, O\u{g}ulcan \"Ozdemir and Lale Akarun
Abstract要約: 我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
参考スコア（独自算出の注目度）: 2.3204178451683264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a set of features called temporal accumulative features (TAF) for representing and recognizing isolated sign language gestures. By incorporating sign language specific constructs to better represent the unique linguistic characteristic of sign language videos, we have devised an efficient and fast SLR method for recognizing isolated sign language gestures. The proposed method is an HSV based accumulative video representation where keyframes based on the linguistic movement-hold model are represented by different colors. We also incorporate hand shape information and using a small scale convolutional neural network, demonstrate that sequential modeling of accumulative features for linguistic subunits improves upon baseline classification results.
Abstract（参考訳）: 本稿では,孤立した手話のジェスチャーを表現・認識するための時間的累積特徴(TAF)という特徴セットを提案する。我々は手話ビデオの言語特性をよりよく表現するために手話固有の構造を組み込むことにより、手話のジェスチャーを認識するための効率的かつ高速なSLR法を考案した。提案手法は,言語的移動ホールドモデルに基づくキーフレームを異なる色で表現する,HSVに基づく累積ビデオ表現である。また,手形情報を取り込んで,小規模畳み込みニューラルネットワークを用いて,言語サブユニットの累積特徴の逐次モデリングがベースライン分類の結果により改善することを示す。

関連論文リスト

Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。 SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。 SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-21T17:59:57Z)
Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文参考訳（メタデータ） (2022-05-24T13:40:45Z)
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文参考訳（メタデータ） (2022-03-29T08:51:38Z)
Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文参考訳（メタデータ） (2021-10-12T16:57:18Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)
Context Matters: Self-Attention for Sign Language Recognition [1.005130974691351]
本稿では,継続的署名言語認識の課題に対する注目ネットワークを提案する。符号言語のモダリティをモデル化するために、データの共依存ストリームを利用する。モデルが支配的な手と顔の領域の周りを回転する重要な手話コンポーネントを識別することができることがわかります。
論文参考訳（メタデータ） (2021-01-12T17:40:19Z)
Global-local Enhancement Network for NMFs-aware Sign Language Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。 2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文参考訳（メタデータ） (2020-08-24T13:28:55Z)
Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-08T03:05:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。