論文の概要: LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation
- arxiv url: http://arxiv.org/abs/2211.15481v1
- Date: Mon, 14 Nov 2022 14:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:41:45.469612
- Title: LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation
- Title(参考訳): LSA-T:手話翻訳のための最初の連続アルゼンチン手話データセット
- Authors: Pedro Dal Bianco and Gast\'on R\'ios and Franco Ronchetti and Facundo
Quiroga and Oscar Stanchi and Waldo Hasperu\'e and Alejandro Rosete
- Abstract要約: 手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 52.87578398308052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language translation (SLT) is an active field of study that encompasses
human-computer interaction, computer vision, natural language processing and
machine learning. Progress on this field could lead to higher levels of
integration of deaf people. This paper presents, to the best of our knowledge,
the first continuous Argentinian Sign Language (LSA) dataset. It contains
14,880 sentence level videos of LSA extracted from the CN Sordos YouTube
channel with labels and keypoints annotations for each signer. We also present
a method for inferring the active signer, a detailed analysis of the
characteristics of the dataset, a visualization tool to explore the dataset and
a neural SLT model to serve as baseline for future experiments.
- Abstract(参考訳): 手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
この分野の進歩は、聴覚障害者のより高いレベルの統合につながる可能性がある。
本稿では、我々の知る限り、最初の連続的アルゼンチン手話(LSA)データセットについて述べる。
cn sordos youtubeチャンネルから抽出されたlsaの14,880文レベルのビデオがあり、各署名者に対してラベルとキーポイントのアノテーションが提供されている。
また、アクティブシグナの推測方法、データセットの特徴を詳細に分析する手法、データセットを探索する可視化ツール、将来の実験のベースラインとなるニューラルネットワークSLTモデルを提案する。
関連論文リスト
- LSA64: An Argentinian Sign Language Dataset [42.27617228521691]
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提案する。
LSA64と呼ばれるこのデータセットには、10人の被験者が記録した64種類のLAA符号の3200の動画が含まれている。
また、前処理したデータセットも提示し、そこから信号の移動、位置、手形に関する統計を計算した。
論文 参考訳(メタデータ) (2023-10-26T14:37:01Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。