論文の概要: Automated speech tools for helping communities process restricted-access
corpora for language revival efforts
- arxiv url: http://arxiv.org/abs/2204.07272v1
- Date: Fri, 15 Apr 2022 00:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 00:06:46.890629
- Title: Automated speech tools for helping communities process restricted-access
corpora for language revival efforts
- Title(参考訳): 言語再生のための制限付きコーパス処理を支援する自動音声ツール
- Authors: Nay San, Martijn Bartelds, Tol\'ul\d{o}p\d\'e \`Og\'unr\d\`em\'i,
Alison Mount, Ruben Thompson, Michael Higgins, Roy Barker, Jane Simpson, Dan
Jurafsky
- Abstract要約: 絶滅危惧言語からの音声のアーカイブ記録の多くは、コミュニティメンバーや言語学習プログラムには注釈がなく、アクセスできないままである。
危険言語における音声がより広範に使われている言語と混在している場合に、両方のボトルネックを拡大するプライバシー保護ワークフローを提案する。
本報告では,英語とムルワリを混合した136時間アーカイブオーディオについて報告する。
- 参考スコア(独自算出の注目度): 15.174963435891677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many archival recordings of speech from endangered languages remain
unannotated and inaccessible to community members and language learning
programs. One bottleneck is the time-intensive nature of annotation. An even
narrower bottleneck occurs for recordings with access constraints, such as
language that must be vetted or filtered by authorised community members before
annotation can begin. We propose a privacy-preserving workflow to widen both
bottlenecks for recordings where speech in the endangered language is
intermixed with a more widely-used language such as English for meta-linguistic
commentary and questions (e.g. What is the word for 'tree'?). We integrate
voice activity detection (VAD), spoken language identification (SLI), and
automatic speech recognition (ASR) to transcribe the metalinguistic content,
which an authorised person can quickly scan to triage recordings that can be
annotated by people with lower levels of access. We report work-in-progress
processing 136 hours archival audio containing a mix of English and Muruwari.
Our collaborative work with the Muruwari custodian of the archival materials
show that this workflow reduces metalanguage transcription time by 20% even
given only minimal amounts of annotated training data: 10 utterances per
language for SLI and 39 minutes of the English for ASR.
- Abstract(参考訳): 絶滅危惧言語からの音声の記録の多くは、コミュニティのメンバーや言語学習プログラムに注釈やアクセス不能なままである。
ボトルネックのひとつはアノテーションの時間集約的な性質です。
アクセス制限のあるレコードには、アノテーションを開始する前に、認証されたコミュニティメンバーによって検査またはフィルタリングされる言語など、さらに狭いボトルネックが発生する。
本稿では,メタ言語的解説や質問のための英語など,より広範に使われている言語と,絶滅危惧言語における音声が混在する記録のボトルネックを,双方に広げるためのプライバシー保護ワークフローを提案する。
本研究では,音声活動検出 (VAD) と音声言語識別 (SLI) と自動音声認識 (ASR) を統合してメタリングスティックな内容の書き起こしを行う。
英語とムルワーリを混合した136時間のアーカイブ音声の処理について報告する。
文献のMuruwari custodianと共同研究を行った結果,SLIでは1言語10発,ASRでは英語39分という,最小限の注釈付きトレーニングデータであっても,翻訳時間を20%短縮できることがわかった。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Multilingual Bottleneck Features for Improving ASR Performance of
Code-Switched Speech in Under-Resourced Languages [12.139300459657974]
アフリカ語におけるコード切替(CS)音声の自動音声認識のための音響モデリングにおける多言語ボトルネック機能(mBNF)の利点について検討する。
我々は、自由に利用できる多言語NCHLTコーパスの一部である9つの南バントゥー言語を用いてmBNF抽出器を訓練する。
以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2020-10-31T18:51:42Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。