Fugu-MT 論文翻訳(概要): Wav2Gloss: Generating Interlinear Glossed Text from Speech

論文の概要: Wav2Gloss: Generating Interlinear Glossed Text from Speech

arxiv url: http://arxiv.org/abs/2403.13169v1
Date: Tue, 19 Mar 2024 21:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 18:37:24.133164
Title: Wav2Gloss: Generating Interlinear Glossed Text from Speech
Title（参考訳）: Wav2Gloss: 音声からインターリニア・グロステキストを生成する
Authors: Taiqi He, Kwanghee Choi, Lindia Tjuatja, Nathaniel R. Robinson, Jiatong Shi, Shinji Watanabe, Graham Neubig, David R. Mortensen, Lori Levin,
Abstract要約: Interlinear Glossed Text (IGT) は言語アノテーションの一種で、これらの言語コミュニティのドキュメントやリソース作成をサポートする。本稿では,これらの4つのアノテーションを音声から自動的に抽出するWav2Glossを提案する。我々は、エンドツーエンドとカスケードされたWav2Gloss法を比較し、事前学習されたデコーダが翻訳とグロス処理を補助し、マルチタスクと多言語アプローチは性能が劣り、エンドツーエンドシステムはカスケードシステムよりも性能が良いことを示唆する分析を行った。
参考スコア（独自算出の注目度）: 78.64412090339044
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Thousands of the world's languages are in danger of extinction--a tremendous threat to cultural identities and human language diversity. Interlinear Glossed Text (IGT) is a form of linguistic annotation that can support documentation and resource creation for these languages' communities. IGT typically consists of (1) transcriptions, (2) morphological segmentation, (3) glosses, and (4) free translations to a majority language. We propose Wav2Gloss: a task to extract these four annotation components automatically from speech, and introduce the first dataset to this end, Fieldwork: a corpus of speech with all these annotations covering 37 languages with standard formatting and train/dev/test splits. We compare end-to-end and cascaded Wav2Gloss methods, with analysis suggesting that pre-trained decoders assist with translation and glossing, that multi-task and multilingual approaches are underperformant, and that end-to-end systems perform better than cascaded systems, despite the text-only systems' advantages. We provide benchmarks to lay the ground work for future research on IGT generation from speech.
Abstract（参考訳）: 世界中の何千もの言語が絶滅の危機にさらされている。 Interlinear Glossed Text (IGT) は言語アノテーションの一種で、これらの言語コミュニティのドキュメントやリソース作成をサポートする。 IGTは通常、(1)転写、(2)形態的セグメンテーション、(3)グルース、(4)多数言語への自由翻訳からなる。本稿では,これらの4つのアノテーションコンポーネントを音声から自動的に抽出するタスクであるWav2Glossを提案し,その最後に最初のデータセットであるFieldworkを紹介した。我々は,エンドツーエンドとカスケードのWav2Gloss法を比較し,事前学習したデコーダが翻訳とグロス処理を補助し,マルチタスクと多言語アプローチが不十分であり,テキストのみの利点にもかかわらず,エンドツーエンドシステムはカスケードシステムよりも優れた性能を発揮することを示唆する分析を行った。音声からのIGT生成に関する今後の研究のための基礎研究を行うためのベンチマークを提供する。

関連論文リスト

PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。 Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。 CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文参考訳（メタデータ） (2025-09-24T03:54:14Z)
Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation [48.769137497536]
本稿では,2つのモデリング課題を克服する単位言語を提案する。単位言語はテキストのような表現形式とみなすことができる。我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
論文参考訳（メタデータ） (2025-05-21T10:05:25Z)
Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文参考訳（メタデータ） (2023-07-31T14:29:06Z)
Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文参考訳（メタデータ） (2022-04-16T16:08:38Z)
Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文参考訳（メタデータ） (2021-12-03T04:26:49Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文参考訳（メタデータ） (2020-11-10T22:47:14Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)
Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。 i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文参考訳（メタデータ） (2020-08-20T17:58:56Z)
Investigating Language Impact in Bilingual Approaches for Computational Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文参考訳（メタデータ） (2020-03-30T10:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。