論文の概要: HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation
- arxiv url: http://arxiv.org/abs/2306.11252v1
- Date: Tue, 20 Jun 2023 03:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:51:40.876764
- Title: HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation
- Title(参考訳): HK-LegiCoST:音声翻訳における非バーベット文字の活用
- Authors: Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner,
Kevin Duh, Sanjeev Khudanpur
- Abstract要約: カントン翻訳の3方向並列コーパスであるHK-LegiCoSTを紹介する。
コーパス作成における課題として, セグメンテーション, 長い音声録音のアライメント, 非バーベット文字との文レベルのアライメントについて述べる。
- 参考スコア(独自算出の注目度): 29.990957948085956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HK-LegiCoST, a new three-way parallel corpus of
Cantonese-English translations, containing 600+ hours of Cantonese audio, its
standard traditional Chinese transcript, and English translation, segmented and
aligned at the sentence level. We describe the notable challenges in corpus
preparation: segmentation, alignment of long audio recordings, and
sentence-level alignment with non-verbatim transcripts. Such transcripts make
the corpus suitable for speech translation research when there are significant
differences between the spoken and written forms of the source language. Due to
its large size, we are able to demonstrate competitive speech translation
baselines on HK-LegiCoST and extend them to promising cross-corpus results on
the FLEURS Cantonese subset. These results deliver insights into speech
recognition and translation research in languages for which non-verbatim or
``noisy'' transcription is common due to various factors, including vernacular
and dialectal speech.
- Abstract(参考訳): HK-LegiCoSTは,Cantonese- English 翻訳の3方向並列コーパスで,600時間以上のCantonese 音声,その標準漢文,および文レベルで区切られた英訳を含む。
コーパス作成における顕著な課題として,セグメンテーション,長い音声記録のアライメント,非バーベット文字との文レベルのアライメントについて述べる。
このような書き起こしは、ソース言語の話し言葉と書き言葉の間に大きな違いがある場合に、音声翻訳研究に適したコーパスとなる。
その大きさが大きいため、HK-LegiCoSTをベースとした競合音声翻訳を実証し、FLEURSカントン部分集合上で有望なクロスコーパス結果に拡張することができる。
これらの結果から,非動詞や'noisy'の書き起こしが一般的である言語における音声認識と翻訳研究の洞察が得られた。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - BSTC: A Large-Scale Chinese-English Speech Translation Dataset [26.633433687767553]
BSTC (Baidu Speech Translation Corpus) は、中国語と英語の大規模翻訳データセットである。
このデータセットは、約68時間のマンダリンデータを含む講演や講義のライセンス付きビデオのコレクションに基づいて構築されている。
3名の経験豊富な通訳者に、模擬会議の設定で同時にテストトークを解釈するよう依頼しました。
論文 参考訳(メタデータ) (2021-04-08T07:38:51Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。