論文の概要: Semi-Supervised Spoken Language Glossification
- arxiv url: http://arxiv.org/abs/2406.08173v1
- Date: Wed, 12 Jun 2024 13:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:55:44.839186
- Title: Semi-Supervised Spoken Language Glossification
- Title(参考訳): 半教師付き音声言語グロシフィケーション
- Authors: Huijie Yao, Wengang Zhou, Hao Zhou, Houqiang Li,
- Abstract要約: Spoken Language glossification (SLG) は、音声言語のテキストを手話のグロスに変換することを目的としている。
我々はSLGに$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S3$LGというフレームワークを提示する。
- 参考スコア(独自算出の注目度): 101.31035869691462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language glossification (SLG) aims to translate the spoken language text into the sign language gloss, i.e., a written record of sign language. In this work, we present a framework named $S$emi-$S$upervised $S$poken $L$anguage $G$lossification ($S^3$LG) for SLG. To tackle the bottleneck of limited parallel data in SLG, our $S^3$LG incorporates large-scale monolingual spoken language text into SLG training. The proposed framework follows the self-training structure that iteratively annotates and learns from pseudo labels. Considering the lexical similarity and syntactic difference between sign language and spoken language, our $S^3$LG adopts both the rule-based heuristic and model-based approach for auto-annotation. During training, we randomly mix these complementary synthetic datasets and mark their differences with a special token. As the synthetic data may be less quality, the $S^3$LG further leverages consistency regularization to reduce the negative impact of noise in the synthetic data. Extensive experiments are conducted on public benchmarks to demonstrate the effectiveness of the $S^3$LG. Our code is available at \url{https://github.com/yaohj11/S3LG}.
- Abstract(参考訳): Spoken Language glossification (SLG) は、手話のテキストを手話のグロス、すなわち手話の記録に翻訳することを目的としている。
本稿では,SLGに対して$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S^3$LGというフレームワークを提案する。
SLGにおける限られた並列データのボトルネックに対処するため、S^3$LGは大規模単言語言語テキストをSLGトレーニングに組み込む。
提案するフレームワークは,擬似ラベルから繰り返し注釈を付け,学習する自己学習構造に従う。
S^3$LGは,手話と音声言語との語彙的類似性や構文的相違を考慮し,ルールに基づくヒューリスティックとモデルに基づく自動アノテーションの両アプローチを採用した。
トレーニング中、これらの補完的な合成データセットをランダムに混合し、それらの違いを特別なトークンでマークする。
合成データの品質が低下する可能性があるため、$S^3$LGはさらに整合正則化を活用して合成データにおけるノイズの負の影響を低減する。
S^3$LGの有効性を示すために、公開ベンチマークで大規模な実験を行った。
私たちのコードは \url{https://github.com/yaohj11/S3LG} で利用可能です。
関連論文リスト
- Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - A Token-level Contrastive Framework for Sign Language Translation [9.185037439012952]
手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
論文 参考訳(メタデータ) (2022-04-11T07:33:26Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。