論文の概要: Topic Detection in Continuous Sign Language Videos
- arxiv url: http://arxiv.org/abs/2209.02402v1
- Date: Thu, 1 Sep 2022 19:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:03:56.801841
- Title: Topic Detection in Continuous Sign Language Videos
- Title(参考訳): 連続手話映像における話題検出
- Authors: Alvaro Budria, Laia Tarres, Gerard I. Gallego, Francesc Moreno-Noguer,
Jordi Torres, Xavier Giro-i-Nieto
- Abstract要約: 本稿では,手話話題検出の新しい課題について紹介する。
複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。
- 参考スコア(独自算出の注目度): 23.43298383445439
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Significant progress has been made recently on challenging tasks in automatic
sign language understanding, such as sign language recognition, translation and
production. However, these works have focused on datasets with relatively few
samples, short recordings and limited vocabulary and signing space. In this
work, we introduce the novel task of sign language topic detection. We base our
experiments on How2Sign, a large-scale video dataset spanning multiple semantic
domains. We provide strong baselines for the task of topic detection and
present a comparison between different visual features commonly used in the
domain of sign language.
- Abstract(参考訳): 近年,手話認識や翻訳,生産など,手話の自動理解における課題課題が大幅に進展している。
しかし、これらの作品は、比較的少ないサンプル、短い録音、限られた語彙と署名空間を持つデータセットに焦点を当てている。
本稿では,手話話題検出の新たな課題について紹介する。
複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。
話題検出の課題に対して強力なベースラインを提供し,手話領域で一般的に使用される視覚的特徴の比較を行う。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Reconsidering Sentence-Level Sign Language Translation [2.099922236065961]
サンプル中の33%の文に対して,流用なDeafシグナ・アノテータは談話レベルの文脈から,クリップのキー部分のみを理解できた。
これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-16T19:19:54Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。