論文の概要: SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work
- arxiv url: http://arxiv.org/abs/2508.06951v1
- Date: Sat, 09 Aug 2025 11:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.625105
- Title: SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work
- Title(参考訳): SLRTP2025 言語生産の課題:方法論,結果,今後の課題
- Authors: Harry Walsh, Ed Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li, Weichao Zhao, Haodong Wang, Wengang Zhou, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles,
- Abstract要約: 第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
- 参考スコア(独自算出の注目度): 87.9341538630949
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Production (SLP) is the task of generating sign language video from spoken language inputs. The field has seen a range of innovations over the last few years, with the introduction of deep learning-based approaches providing significant improvements in the realism and naturalness of generated outputs. However, the lack of standardized evaluation metrics for SLP approaches hampers meaningful comparisons across different systems. To address this, we introduce the first Sign Language Production Challenge, held as part of the third SLRTP Workshop at CVPR 2025. The competition's aims are to evaluate architectures that translate from spoken language sentences to a sequence of skeleton poses, known as Text-to-Pose (T2P) translation, over a range of metrics. For our evaluation data, we use the RWTH-PHOENIX-Weather-2014T dataset, a German Sign Language - Deutsche Gebardensprache (DGS) weather broadcast dataset. In addition, we curate a custom hidden test set from a similar domain of discourse. This paper presents the challenge design and the winning methodologies. The challenge attracted 33 participants who submitted 231 solutions, with the top-performing team achieving BLEU-1 scores of 31.40 and DTW-MJE of 0.0574. The winning approach utilized a retrieval-based framework and a pre-trained language model. As part of the workshop, we release a standardized evaluation network, including high-quality skeleton extraction-based keypoints establishing a consistent baseline for the SLP field, which will enable future researchers to compare their work against a broader range of methods.
- Abstract(参考訳): 手話生成(SLP)は、音声入力から手話ビデオを生成するタスクである。
この分野では、ディープラーニングベースのアプローチを導入し、生成した出力の現実性と自然性を大幅に改善するなど、ここ数年でさまざまなイノベーションが見られた。
しかし、SLPアプローチの標準化された評価基準の欠如は、異なるシステム間で有意義な比較を妨げている。
これを解決するため,CVPR 2025で第3回SLRTPワークショップの一環として開催された第1回手話生産チャレンジを紹介する。
このコンペティションの目的は、音声言語文からT2P(Text-to-Pose)翻訳として知られる一連のスケルトンポーズに変換するアーキテクチャを、さまざまなメトリクスで評価することである。
評価データとして、ドイツ手話 - ドイツゲバルデンスプラッシェ(DGS)気象放送データセットであるRWTH-PHOENIX-Weather-2014Tデータセットを用いる。
さらに、同様の会話領域から独自の隠れテストセットをキュレートする。
本稿では,挑戦設計と入賞方法について述べる。
この挑戦には33人の参加者が参加し、231の解決案が提出され、BLEU-1のスコアは31.40点、DTW-MJEのスコアは0.0574点となった。
勝利のアプローチは、検索ベースのフレームワークと事前訓練された言語モデルを利用した。
ワークショップの一環として、我々はSLPフィールドの一貫性のあるベースラインを確立するための高品質な骨格抽出に基づくキーポイントを含む標準化された評価ネットワークをリリースする。
関連論文リスト
- CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Task-specific Pre-training and Prompt Decomposition for Knowledge Graph
Population with Language Models [15.164149482966296]
ISWC 2022において,事前学習型言語モデル(LM-KBC)による知識ベース構築を課題とし,言語モデルを用いた知識グラフの集団化システムを提案する。
我々のシステムはBERT LMに基づくLM-KBCチャレンジのトラック1の勝者であり、このチャレンジの隠れテストセットで55.0%のF-1スコアを達成している。
論文 参考訳(メタデータ) (2022-08-26T09:56:27Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。