論文の概要: MM-WLAuslan: Multi-View Multi-Modal Word-Level Australian Sign Language Recognition Dataset
- arxiv url: http://arxiv.org/abs/2410.19488v1
- Date: Fri, 25 Oct 2024 11:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:32.890796
- Title: MM-WLAuslan: Multi-View Multi-Modal Word-Level Australian Sign Language Recognition Dataset
- Title(参考訳): MM-WLAuslan:マルチビューマルチモーダルワードレベルオーストラリア手話認識データセット
- Authors: Xin Shen, Heming Du, Hongwei Sheng, Shuyun Wang, Hui Chen, Huiqiang Chen, Zhuojie Wu, Xiaobiao Du, Jiaying Ying, Ruihan Lu, Qingzheng Xu, Xin Yu,
- Abstract要約: 独立した手話認識は、個々の手話群を特定することに焦点を当てている。
オーストラリア特有の手話として、AuslanにはISLRタスク用の大規模な単語レベルのデータセットがまだ欠けている。
MM-WLAuslanは,(1)最大のデータ量,(2)最も広範な語彙,(3)最も多様なマルチモーダルカメラビューの3つの大きな利点を示す。
- 参考スコア(独自算出の注目度): 17.373373006160623
- License:
- Abstract: Isolated Sign Language Recognition (ISLR) focuses on identifying individual sign language glosses. Considering the diversity of sign languages across geographical regions, developing region-specific ISLR datasets is crucial for supporting communication and research. Auslan, as a sign language specific to Australia, still lacks a dedicated large-scale word-level dataset for the ISLR task. To fill this gap, we curate \underline{\textbf{the first}} large-scale Multi-view Multi-modal Word-Level Australian Sign Language recognition dataset, dubbed MM-WLAuslan. Compared to other publicly available datasets, MM-WLAuslan exhibits three significant advantages: (1) the largest amount of data, (2) the most extensive vocabulary, and (3) the most diverse of multi-modal camera views. Specifically, we record 282K+ sign videos covering 3,215 commonly used Auslan glosses presented by 73 signers in a studio environment. Moreover, our filming system includes two different types of cameras, i.e., three Kinect-V2 cameras and a RealSense camera. We position cameras hemispherically around the front half of the model and simultaneously record videos using all four cameras. Furthermore, we benchmark results with state-of-the-art methods for various multi-modal ISLR settings on MM-WLAuslan, including multi-view, cross-camera, and cross-view. Experiment results indicate that MM-WLAuslan is a challenging ISLR dataset, and we hope this dataset will contribute to the development of Auslan and the advancement of sign languages worldwide. All datasets and benchmarks are available at MM-WLAuslan.
- Abstract(参考訳): 孤立手話認識(ISLR)は、個々の手話群を特定することに焦点を当てている。
地理的地域にまたがる手話の多様性を考えると、地域固有のISLRデータセットの開発はコミュニケーションと研究を支援するために不可欠である。
オーストラリア特有の手話として、AuslanにはISLRタスク用の大規模な単語レベルのデータセットがまだ欠けている。
このギャップを埋めるために,MM-WLAuslan と呼ばれる,大規模マルチビューマルチモーダルワードレベルオーストラリア手話認識データセットをキュレートする。
他の公開データセットと比較して、MM-WLAuslanは、(1)最大のデータ量、(2)最も広範な語彙、(3)最も多様なマルチモーダルカメラビューの3つの大きな利点を示す。
具体的には、スタジオ環境で73人の署名者が提示した3,215本のオースラングルースに関する282K+のサインビデオを収録する。
さらに,撮影システムには,Kinect-V2カメラ3台とRealSenseカメラの2種類のカメラが搭載されている。
われわれは、カメラを前面に半球状に配置し、同時に4つのカメラ全てを使ってビデオを録画する。
さらに,マルチビュー,クロスカメラ,クロスビューを含む,MM-WLAuslan上での多モードISLR設定の最先端手法をベンチマークした。
実験結果から,MM-WLAuslanはISLRデータセットの課題であり,このデータセットがAuslanの開発に寄与し,世界中の手話言語の発展に寄与することを期待する。
すべてのデータセットとベンチマークはMM-WLAuslanで利用可能である。
関連論文リスト
- SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - Project MOSLA: Recording Every Moment of Second Language Acquisition [0.03683202928838613]
第二言語習得は複雑で動的なプロセスである。
Project MOSLAは参加者に対して,2年間にわたって3つのターゲット言語のうちの1つをスクラッチから学ぶように求めている。
データセットには、人間のアノテータと細調整された最先端の音声モデルの両方によって、話者/言語IDと転写文が半自動アノテートされる。
論文 参考訳(メタデータ) (2024-03-26T01:52:59Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。