論文の概要: A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild
- arxiv url: http://arxiv.org/abs/2105.07625v1
- Date: Mon, 17 May 2021 06:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:45:50.617298
- Title: A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild
- Title(参考訳): 野生における指先認識のための細粒度視覚注意アプローチ
- Authors: Kamala Gajurel, Cuncong Zhong and Guanghui Wang
- Abstract要約: 指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
- 参考スコア(独自算出の注目度): 17.8181080354116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fingerspelling in sign language has been the means of communicating technical
terms and proper nouns when they do not have dedicated sign language gestures.
Automatic recognition of fingerspelling can help resolve communication barriers
when interacting with deaf people. The main challenges prevalent in
fingerspelling recognition are the ambiguity in the gestures and strong
articulation of the hands. The automatic recognition model should address high
inter-class visual similarity and high intra-class variation in the gestures.
Most of the existing research in fingerspelling recognition has focused on the
dataset collected in a controlled environment. The recent collection of a
large-scale annotated fingerspelling dataset in the wild, from social media and
online platforms, captures the challenges in a real-world scenario. In this
work, we propose a fine-grained visual attention mechanism using the
Transformer model for the sequence-to-sequence prediction task in the wild
dataset. The fine-grained attention is achieved by utilizing the change in
motion of the video frames (optical flow) in sequential context-based attention
along with a Transformer encoder model. The unsegmented continuous video
dataset is jointly trained by balancing the Connectionist Temporal
Classification (CTC) loss and the maximum-entropy loss. The proposed approach
can capture better fine-grained attention in a single iteration. Experiment
evaluations show that it outperforms the state-of-the-art approaches.
- Abstract(参考訳): 手話の指書きは、専門用語や固有名詞が手話のジェスチャを持っていないときに、コミュニケーションする手段であった。
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
自動認識モデルは、ジェスチャにおけるクラス間視覚類似度が高く、クラス内変動度が高い。
指先認識の既存の研究のほとんどは、制御された環境で収集されたデータセットに焦点を当てている。
最近、ソーシャルメディアやオンラインプラットフォームから、大規模な注釈付き指打ちデータセットのコレクションが、現実のシナリオにおける課題を捉えている。
本研究では,野生データセットにおけるシーケンス・ツー・シーケンス予測タスクにトランスフォーマモデルを用いた細粒度視覚注意機構を提案する。
トランスフォーマーエンコーダモデルとともに、逐次的コンテキストに基づく注意における映像フレーム(光の流れ)の動きの変化を利用して、きめ細かな注意を実現する。
アンセグメンテッドな連続ビデオデータセットは、Connectionist Temporal Classification (CTC)損失と最大エントロピー損失のバランスをとることで共同で訓練される。
提案手法は1回のイテレーションでより細かい注意を引くことができる。
実験評価では、最先端のアプローチよりも優れています。
関連論文リスト
- Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods [15.77894358993113]
インターネットから収集した署名ビデオを用いて,手話の自動処理について検討した。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
そこで本研究では,指スペル検出と検索という,実世界の指スペルベースアプリケーションを構築するための2つのタスクを提案する。
論文 参考訳(メタデータ) (2023-08-23T20:38:19Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition [36.12001394921506]
最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトのために、いまだに野生のシナリオで苦労している。
これは、そのようなモデルは、テキスト認識のための視覚情報にのみ依存するため、意味論的推論能力が欠如しているためである。
本稿では,複数段階の多段階の注意デコーダを提案する。
論文 参考訳(メタデータ) (2021-07-26T10:15:14Z) - Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。
これは、現実世界の指先認識システムを構築するための重要なステップである。
そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文 参考訳(メタデータ) (2021-04-03T02:11:09Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。