論文の概要: FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation
- arxiv url: http://arxiv.org/abs/2408.13585v1
- Date: Sat, 24 Aug 2024 13:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:59:33.834442
- Title: FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation
- Title(参考訳): FLEURS-ASL:多言語マルチタスク評価におけるアメリカの手話を含む
- Authors: Garrett Tanzer,
- Abstract要約: FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークであるFLEURS-ASLを導入する。
FLEURS-ASLは、ASLと200言語間の様々なタスクをテキストとして、あるいは102言語を音声として評価するために使用することができる。
タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んだ統一モデリングアプローチを用いて,ASLから英語テキストへのタスクのベースラインを提供する。
また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示す。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sign language translation has historically been peripheral to mainstream machine translation research. In order to help converge the fields, we introduce FLEURS-ASL, an extension of the multiway parallel benchmarks FLORES (for text) and FLEURS (for speech) to support their first sign language (as video), American Sign Language, translated by 5 Certified Deaf Interpreters. FLEURS-ASL can be used to evaluate a variety of tasks -- primarily sentence- and discourse-level translation -- between ASL and 200 other languages as text, or 102 languages as speech. We provide baselines for tasks from ASL to English text using a unified modeling approach that incorporates timestamp tokens and previous text tokens in a 34-second context window, trained on random video clips from YouTube-ASL. This model meets or exceeds the performance of phrase-level baselines while supporting a multitude of new tasks. We also use FLEURS-ASL to show that multimodal frontier models have virtually no understanding of ASL, underscoring the importance of including sign languages in standard evaluation suites.
- Abstract(参考訳): 手話翻訳は歴史的に主流の機械翻訳研究の周辺であった。
フィールドの収束を支援するため,FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークの拡張であるFLEURS-ASLを導入し,最初の手話(ビデオ用)であるAmerican Sign Languageを5Certified Deaf Interpretersで翻訳した。
FLEURS-ASLは、ASLと200言語間の様々なタスク(主に文と談話レベルの翻訳)をテキストとして、あるいは102言語を音声として評価するために使用することができる。
タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んで,YouTube-ASLのランダムなビデオクリップに基づいてトレーニングした統合モデリング手法を用いて,ASLから英語テキストへのタスクのベースラインを提供する。
このモデルは、多数の新しいタスクをサポートしながら、フレーズレベルのベースラインのパフォーマンスを満たしたり、超えたりします。
また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示し、標準評価スイートに手話を含めることの重要性を強調した。
関連論文リスト
- Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs [0.2678472239880052]
我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。
このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-19T17:45:12Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。