論文の概要: EvSign: Sign Language Recognition and Translation with Streaming Events
- arxiv url: http://arxiv.org/abs/2407.12593v1
- Date: Wed, 17 Jul 2024 14:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:56:39.803871
- Title: EvSign: Sign Language Recognition and Translation with Streaming Events
- Title(参考訳): EvSign: ストリームイベントによる手話認識と翻訳
- Authors: Pengyu Zhang, Hao Yin, Zeren Wang, Wenyue Chen, Shengming Li, Dong Wang, Huchuan Lu, and Xu Jia,
- Abstract要約: イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
- 参考スコア(独自算出の注目度): 57.359498783433736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is one of the most effective communication tools for people with hearing difficulties. Most existing works focus on improving the performance of sign language tasks on RGB videos, which may suffer from degraded recording conditions, such as fast movement of hands with motion blur and textured signer's appearance. The bio-inspired event camera, which asynchronously captures brightness change with high speed, could naturally perceive dynamic hand movements, providing rich manual clues for sign language tasks. In this work, we aim at exploring the potential of event camera in continuous sign language recognition (CSLR) and sign language translation (SLT). To promote the research, we first collect an event-based benchmark EvSign for those tasks with both gloss and spoken language annotations. EvSign dataset offers a substantial amount of high-quality event streams and an extensive vocabulary of glosses and words, thereby facilitating the development of sign language tasks. In addition, we propose an efficient transformer-based framework for event-based SLR and SLT tasks, which fully leverages the advantages of streaming events. The sparse backbone is employed to extract visual features from sparse events. Then, the temporal coherence is effectively utilized through the proposed local token fusion and gloss-aware temporal aggregation modules. Extensive experimental results are reported on both simulated (PHOENIX14T) and EvSign datasets. Our method performs favorably against existing state-of-the-art approaches with only 0.34% computational cost (0.84G FLOPS per video) and 44.2% network parameters. The project is available at https://zhang-pengyu.github.io/EVSign.
- Abstract(参考訳): 手話は難聴者にとって最も効果的なコミュニケーションツールの1つである。
既存の作業の多くはRGBビデオにおける手話タスクのパフォーマンス向上に重点を置いており、動きのぼやけた手の動きやテクスチャ付き手話の出現など、劣化した記録条件に悩まされる可能性がある。
バイオインスパイアされたイベントカメラは、高速で明るさの変化を非同期に捉え、動的手の動きを自然に知覚し、手話のタスクに豊富な手作業の手がかりを与える。
本研究では,連続手話認識(CSLR)と手話翻訳(SLT)におけるイベントカメラの可能性を探究する。
この研究を促進するために、まず、グロスと音声言語アノテーションの両方を用いて、これらのタスクのためのイベントベースのベンチマークEvSignを収集する。
EvSignデータセットは、かなりの量の高品質なイベントストリームと、グロスと単語の広範な語彙を提供し、手話タスクの開発を容易にする。
さらに,イベントベースのSLRとSLTタスクのための効率的なトランスフォーマーベースのフレームワークを提案し,ストリーミングイベントの利点をフル活用する。
スパースバックボーンはスパースイベントから視覚的特徴を抽出するために使用される。
次に, 時間的コヒーレンスを局所トークン融合と光沢を考慮した時間的アグリゲーションモジュールを用いて効果的に活用する。
シミュレーション(PHOENIX14T)とEvSignデータセットの両方で大規模な実験結果が報告されている。
提案手法は,ビデオあたり0.34%の計算コスト (0.84G FLOPS) と44.2%のネットワークパラメータを持つ既存の最先端手法に対して良好に機能する。
このプロジェクトはhttps://zhang-pengyu.github.io/EVSign.comで入手できる。
関連論文リスト
- SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives [37.679114155300084]
アバターをベースとした手話生成(SLP)は伝統的に、手の動きのシーケンスと表情のアニメーションを構築してきた。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
アニメーションのサブタスクは、学習した手話表現によく似た表現的な手話列を生成することを目的としている。
論文 参考訳(メタデータ) (2021-07-23T15:53:11Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。