論文の概要: Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods
- arxiv url: http://arxiv.org/abs/2308.12419v1
- Date: Wed, 23 Aug 2023 20:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:16:47.327283
- Title: Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods
- Title(参考訳): 実世界におけるアメリカの手話処理に向けて:データ,課題,方法
- Authors: Bowen Shi
- Abstract要約: インターネットから収集した署名ビデオを用いて,手話の自動処理について検討した。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
そこで本研究では,指スペル検出と検索という,実世界の指スペルベースアプリケーションを構築するための2つのタスクを提案する。
- 参考スコア(独自算出の注目度): 15.77894358993113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language, which conveys meaning through gestures, is the chief means of
communication among deaf people. Recognizing sign language in natural settings
presents significant challenges due to factors such as lighting, background
clutter, and variations in signer characteristics. In this thesis, I study
automatic sign language processing in the wild, using signing videos collected
from the Internet. This thesis contributes new datasets, tasks, and methods.
Most chapters of this thesis address tasks related to fingerspelling, an
important component of sign language and yet has not been studied widely by
prior work. I present three new large-scale ASL datasets in the wild:
ChicagoFSWild, ChicagoFSWild+, and OpenASL. Using ChicagoFSWild and
ChicagoFSWild+, I address fingerspelling recognition, which consists of
transcribing fingerspelling sequences into text. I propose an end-to-end
approach based on iterative attention that allows recognition from a raw video
without explicit hand detection. I further show that using a Conformer-based
network jointly modeling handshape and mouthing can bring performance close to
that of humans. Next, I propose two tasks for building real-world
fingerspelling-based applications: fingerspelling detection and search. For
fingerspelling detection, I introduce a suite of evaluation metrics and a new
detection model via multi-task training. To address the problem of searching
for fingerspelled keywords in raw sign language videos, we propose a novel
method that jointly localizes and matches fingerspelling segments to text.
Finally, I will describe a benchmark for large-vocabulary open-domain sign
language translation based on OpenASL. To address the challenges of sign
language translation in realistic settings, we propose a set of techniques
including sign search as a pretext task for pre-training and fusion of mouthing
and handshape features.
- Abstract(参考訳): ジェスチャーを通して意味を伝える手話は、聴覚障害者の間でのコミュニケーションの主要な手段である。
自然環境における手話の認識は、照明、背景クラッタ、シグナー特性の変化などの要因によって大きな課題が生じる。
本稿では,インターネットから収集した署名ビデオを用いて,手話の自動処理について考察する。
この論文は新しいデータセット、タスク、メソッドに貢献します。
この論文のほとんどの章は手話の重要な構成要素である指打ちに関するタスクを扱っているが、これまでは広く研究されていない。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
ChicagoFSWildとChicagoFSWild+を使って、指のスペル配列をテキストに変換する、指スペル認識に対処します。
そこで,本研究では,手の検出を行なわずに生のビデオから認識できる,反復的注意に基づくエンドツーエンドアプローチを提案する。
さらに,ハンドシェイプとマウスングを共同でモデル化したコンフォーメータベースのネットワークを用いることで,人間のパフォーマンスに近づけることを示す。
次に,指先検出と検索という,実世界の指先検出アプリケーションを構築するための2つのタスクを提案する。
フィンガーペリング検出には,評価メトリクススイートと,マルチタスクトレーニングによる新たな検出モデルを提案する。
そこで本研究では,手話ビデオにおける指先キーワード検索の課題に対処するため,テキストに指先セグメントを共同で局所化し,一致させる手法を提案する。
最後に,OpenASLに基づく大語彙オープンドメイン手話翻訳のベンチマークについて述べる。
そこで本研究では,手話翻訳の課題を解決するために,手話の事前学習と手形特徴の融合のためのプリテキストタスクとして,手話検索を含む一連の手法を提案する。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Searching for fingerspelled content in American Sign Language [32.89182994277633]
手話ビデオの自然言語処理は、聴覚障害者に人工知能技術を提供することに不可欠である。
本稿では,手話ビデオ中の指で打ったキーワードやキーフレーズを検索する問題に対処する。
本稿では,指で指を打つことを共同で検出し,それをテキストシーケンスにマッチさせるFSS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-24T18:36:22Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:15:35Z) - Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。
これは、現実世界の指先認識システムを構築するための重要なステップである。
そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文 参考訳(メタデータ) (2021-04-03T02:11:09Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。