論文の概要: End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data
- arxiv url: http://arxiv.org/abs/2506.16251v1
- Date: Thu, 19 Jun 2025 12:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.058443
- Title: End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data
- Title(参考訳): 弱ラベル付きデータを用いた低音源言語のためのエンドツーエンド音声翻訳
- Authors: Aishwarya Pothula, Bhavana Akkiraju, Srihari Bandarupalli, Charan D, Santosh Kesiraju, Anil Kumar Vuppala,
- Abstract要約: 本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。
我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。
以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
- 参考スコア(独自算出の注目度): 5.950263765640278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of high-quality annotated data presents a significant challenge in developing effective end-to-end speech-to-text translation (ST) systems, particularly for low-resource languages. This paper explores the hypothesis that weakly labeled data can be used to build ST models for low-resource language pairs. We constructed speech-to-text translation datasets with the help of bitext mining using state-of-the-art sentence encoders. We mined the multilingual Shrutilipi corpus to build Shrutilipi-anuvaad, a dataset comprising ST data for language pairs Bengali-Hindi, Malayalam-Hindi, Odia-Hindi, and Telugu-Hindi. We created multiple versions of training data with varying degrees of quality and quantity to investigate the effect of quality versus quantity of weakly labeled data on ST model performance. Results demonstrate that ST systems can be built using weakly labeled data, with performance comparable to massive multi-modal multilingual baselines such as SONAR and SeamlessM4T.
- Abstract(参考訳): 高品質な注釈付きデータの不足は、特に低リソース言語において、効果的なエンドツーエンドの音声テキスト翻訳(ST)システムを開発する上で大きな課題となる。
本稿では、低リソース言語ペアのためのSTモデルを構築するために、弱いラベル付きデータを使用できるという仮説を考察する。
我々は、最先端の文エンコーダを用いたbitextマイニングの助けを借りて、音声からテキストへの翻訳データセットを構築した。
Shrutilipi-anuvaadは,ベンガル・ヒンディー,マラヤラム・ヒンディー,オディア・ヒンディー,テルグ・ヒンディーの各言語対のSTデータからなるデータセットである。
我々は,STモデルの性能に及ぼす品質と量の影響を調べるために,品質と量の違いの異なるトレーニングデータの複数バージョンを作成した。
その結果,STシステムはSONARやSeamlessM4Tのようなマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。