論文の概要: Searching for fingerspelled content in American Sign Language
- arxiv url: http://arxiv.org/abs/2203.13291v1
- Date: Thu, 24 Mar 2022 18:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:20:23.728304
- Title: Searching for fingerspelled content in American Sign Language
- Title(参考訳): アメリカ手話における指書き内容の探索
- Authors: Bowen Shi and Diane Brentari and Greg Shakhnarovich and Karen Livescu
- Abstract要約: 手話ビデオの自然言語処理は、聴覚障害者に人工知能技術を提供することに不可欠である。
本稿では,手話ビデオ中の指で打ったキーワードやキーフレーズを検索する問題に対処する。
本稿では,指で指を打つことを共同で検出し,それをテキストシーケンスにマッチさせるFSS-Netを提案する。
- 参考スコア(独自算出の注目度): 32.89182994277633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing for sign language video - including tasks like
recognition, translation, and search - is crucial for making artificial
intelligence technologies accessible to deaf individuals, and is gaining
research interest in recent years. In this paper, we address the problem of
searching for fingerspelled key-words or key phrases in raw sign language
videos. This is an important task since significant content in sign language is
often conveyed via fingerspelling, and to our knowledge the task has not been
studied before. We propose an end-to-end model for this task, FSS-Net, that
jointly detects fingerspelling and matches it to a text sequence. Our
experiments, done on a large public dataset of ASL fingerspelling in the wild,
show the importance of fingerspelling detection as a component of a search and
retrieval model. Our model significantly outperforms baseline methods adapted
from prior work on related tasks
- Abstract(参考訳): 手話ビデオの自然言語処理 – 認識、翻訳、検索などのタスク – は、聴覚障害者にAI技術を利用できるようにする上で不可欠であり、近年研究の関心を集めている。
本稿では,手話ビデオ中の指で打ったキーワードやキーフレーズを検索する問題に対処する。
これは手話における重要な内容がしばしば指先で伝達されるため重要な課題であり、我々の知る限り、この課題はこれまで研究されていない。
本稿では,指で指を打つことを共同で検出し,テキストシーケンスにマッチするFSS-Netを提案する。
野生のaslフィンガーペリングの大規模な公開データセット上で行った実験では,検索・検索モデルの構成要素として指先検出の重要性が示された。
我々のモデルは、関連するタスクの先行作業から適応したベースライン手法を著しく上回る
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Fingerspelling within Sign Language Translation [0.9790236766474201]
Fingerspellingは、その高周波動作とオープン語彙語の使用により、手話処理の課題を提起する。
文全体の文脈において,手話翻訳モデルが指遣いをいかに理解するかを評価する。
論文 参考訳(メタデータ) (2024-08-13T17:57:14Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods [15.77894358993113]
インターネットから収集した署名ビデオを用いて,手話の自動処理について検討した。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
そこで本研究では,指スペル検出と検索という,実世界の指スペルベースアプリケーションを構築するための2つのタスクを提案する。
論文 参考訳(メタデータ) (2023-08-23T20:38:19Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:15:35Z) - Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。
これは、現実世界の指先認識システムを構築するための重要なステップである。
そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文 参考訳(メタデータ) (2021-04-03T02:11:09Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。