論文の概要: Score-level Multi Cue Fusion for Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2009.14139v1
- Date: Tue, 29 Sep 2020 16:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:47:43.413337
- Title: Score-level Multi Cue Fusion for Sign Language Recognition
- Title(参考訳): 手話認識のためのスコアレベルマルチキュー融合
- Authors: \c{C}a\u{g}r{\i} G\"ok\c{c}e and O\u{g}ulcan \"Ozdemir and Ahmet Alp
K{\i}nd{\i}ro\u{g}lu and Lale Akarun
- Abstract要約: 我々は手話認識のためのキューモデルを訓練するためのより簡単なアプローチを提案する。
支配的な手,手,顔,上半身領域に特化した3次元畳み込みニューラルネットワーク(CNN)モデルの性能を比較した。
実験の結果,混合畳み込みモデルの有効性が示された。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Languages are expressed through hand and upper body gestures as well as
facial expressions. Therefore, Sign Language Recognition (SLR) needs to focus
on all such cues. Previous work uses hand-crafted mechanisms or network
aggregation to extract the different cue features, to increase SLR performance.
This is slow and involves complicated architectures. We propose a more
straightforward approach that focuses on training separate cue models
specializing on the dominant hand, hands, face, and upper body regions. We
compare the performance of 3D Convolutional Neural Network (CNN) models
specializing in these regions, combine them through score-level fusion, and use
the weighted alternative. Our experimental results have shown the effectiveness
of mixed convolutional models. Their fusion yields up to 19% accuracy
improvement over the baseline using the full upper body. Furthermore, we
include a discussion for fusion settings, which can help future work on Sign
Language Translation (SLT).
- Abstract(参考訳): 手と上半身のジェスチャーと表情によって手話が表現される。
したがって、手話認識(SLR)は、こうしたすべての手がかりに焦点を当てる必要がある。
従来の作業では手作りの機構やネットワークアグリゲーションを使用して、異なるキューの特徴を抽出し、SLR性能を向上させる。
これは遅く、複雑なアーキテクチャを伴う。
支配的な手,手,顔,上半身領域を専門とする個別のキューモデルを訓練することに焦点を当てた,より簡単なアプローチを提案する。
これらの領域を専門とする3次元畳み込みニューラルネットワーク(cnn)モデルの性能を比較し,スコアレベルの融合によりそれらを組み合わせ,重み付き代替手法を用いた。
実験の結果,混合畳み込みモデルの有効性が示された。
これらの融合は、全上体を用いたベースラインよりも最大19%精度が向上する。
さらに,今後の手話翻訳(SLT)の作業を支援する融合設定に関する議論も含んでいる。
関連論文リスト
- Sign Language Sense Disambiguation [0.0]
本研究は、ドイツ語手話の手話翻訳を強化する手法について、特に同義語に着目して検討する。
本研究では, トランスフォーマーモデルを用いた様々なボディパーツ表現の訓練により, ボディーパーツに焦点を移すことにより, 改善にアプローチする。
その結果、小さなデータセット設定では口にフォーカスすることでパフォーマンスが向上し、手にフォーカスを移すことで、より大きなデータセット設定ではより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-13T12:36:52Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - SignDiff: Diffusion Models for American Sign Language Production [23.82668888574089]
本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。
また,テキスト入力からASL骨格ポーズビデオを生成する,ASLP(American Sign Language Production)の新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - FineHand: Learning Hand Shapes for American Sign Language Recognition [16.862375555609667]
本稿では,手形状の埋め込みを効果的に学習するためのアプローチを提案する。
手形認識には手動ラベル付き手形と高信頼度予測を組み合わせて深部畳み込みニューラルネットワーク(CNN)を訓練する。
より高品質な手形状モデルが最終映像ジェスチャー分類の精度を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2020-03-04T23:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。