論文の概要: Transcribing Natural Languages for The Deaf via Neural Editing Programs
- arxiv url: http://arxiv.org/abs/2112.09600v1
- Date: Fri, 17 Dec 2021 16:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 17:31:09.757660
- Title: Transcribing Natural Languages for The Deaf via Neural Editing Programs
- Title(参考訳): ニューラル編集プログラムによる聴覚障害者のための自然言語転写
- Authors: Dongxu Li, Chenchen Xu, Liu Liu, Yiran Zhong, Rong Wang, Lars
Petersson, Hongdong Li
- Abstract要約: 本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
- 参考スコア(独自算出の注目度): 84.0592111546958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies the task of glossification, of which the aim is to em
transcribe natural spoken language sentences for the Deaf (hard-of-hearing)
community to ordered sign language glosses. Previous sequence-to-sequence
language models trained with paired sentence-gloss data often fail to capture
the rich connections between the two distinct languages, leading to
unsatisfactory transcriptions. We observe that despite different grammars,
glosses effectively simplify sentences for the ease of deaf communication,
while sharing a large portion of vocabulary with sentences. This has motivated
us to implement glossification by executing a collection of editing actions,
e.g. word addition, deletion, and copying, called editing programs, on their
natural spoken language counterparts. Specifically, we design a new neural
agent that learns to synthesize and execute editing programs, conditioned on
sentence contexts and partial editing results. The agent is trained to imitate
minimal editing programs, while exploring more widely the program space via
policy gradients to optimize sequence-wise transcription quality. Results show
that our approach outperforms previous glossification models by a large margin.
- Abstract(参考訳): 本研究は, 音韻化の課題について検討し, その目的は, 手話のグラスを注文するために, 難聴者コミュニティのための自然言語文の書き起こしを行うことである。
ペア言語データでトレーニングされた以前のシーケンス-シーケンス言語モデルは、しばしば2つの異なる言語間の豊富な接続を捉えることに失敗し、不十分な転写に繋がる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
これにより、自然言語対応言語上で、単語の追加、削除、編集プログラムと呼ばれるコピーなどの編集動作のコレクションを実行することで、グロス化を実現する動機付けとなった。
具体的には、文コンテキストと部分的な編集結果に基づいて、編集プログラムの合成と実行を学習するニューラルエージェントを設計する。
エージェントは最小限の編集プログラムを模倣するように訓練され、より広い範囲のプログラム空間をポリシー勾配を通して探索し、シーケンスワイドの転写品質を最適化する。
その結果,従来の光沢化モデルよりも大きなマージンで優れていることがわかった。
関連論文リスト
- Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - Correcting Automated and Manual Speech Transcription Errors using Warped
Language Models [2.8614709576106874]
そこで本稿では,音声の書き起こしを訂正するために,ワープ言語モデルの頑健性を活かした新しい手法を提案する。
提案手法は,音声言語の自動書き起こしと手話書き起こしの両方の単語誤り率を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2021-03-26T16:43:23Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。