論文の概要: DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages
- arxiv url: http://arxiv.org/abs/2310.16749v1
- Date: Wed, 25 Oct 2023 16:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:40:38.081517
- Title: DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages
- Title(参考訳): DISCO:インド・ヨーロッパ語における拡散補正のための大規模アノテートコーパス
- Authors: Vineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya
- Abstract要約: ディフルエンシ補正(Disfluency correction, DC)とは、話し言葉からフィラー、繰り返し、訂正などの不適切な要素を取り除き、読みやすく解釈可能なテキストを作成する過程である。
Indo-Europeanの4つの重要な言語(英語、ヒンディー語、ドイツ語、フランス語)を網羅した、高品質な人間の注釈付きDCコーパスを提示する。
最新の機械翻訳(MT)システムと併用した場合,DCはBLEUスコアを平均5.65ポイント増加させることを示す。
- 参考スコア(独自算出の注目度): 68.66827612799577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disfluency correction (DC) is the process of removing disfluent elements like
fillers, repetitions and corrections from spoken utterances to create readable
and interpretable text. DC is a vital post-processing step applied to Automatic
Speech Recognition (ASR) outputs, before subsequent processing by downstream
language understanding tasks. Existing DC research has primarily focused on
English due to the unavailability of large-scale open-source datasets. Towards
the goal of multilingual disfluency correction, we present a high-quality
human-annotated DC corpus covering four important Indo-European languages:
English, Hindi, German and French. We provide extensive analysis of results of
state-of-the-art DC models across all four languages obtaining F1 scores of
97.55 (English), 94.29 (Hindi), 95.89 (German) and 92.97 (French). To
demonstrate the benefits of DC on downstream tasks, we show that DC leads to
5.65 points increase in BLEU scores on average when used in conjunction with a
state-of-the-art Machine Translation (MT) system. We release code to run our
experiments along with our annotated dataset here.
- Abstract(参考訳): disfluency correction (dc) は、読みやすく解釈可能なテキストを作成するために、音声発話からフィラー、繰り返し、修正といった不均一な要素を取り除くプロセスである。
DCは、下流言語理解タスクによって処理される前に、自動音声認識(ASR)出力に適用される重要な後処理ステップである。
既存のDC研究は主に、大規模なオープンソースデータセットが利用できないため、英語に焦点を当てている。
多言語不フルエンス補正の目標に向けて,インド・ヨーロッパにおける4つの重要な言語(英語,ヒンディー語,ドイツ語,フランス語)をカバーする,高品質な人間の注釈付きDCコーパスを提案する。
全4言語で最新のdcモデルの結果を広範囲に分析し、f1スコアは97.55点(英語)、94.29点(ヒンディー語)、95.89点(ドイツ語)、92.97点(フランス語)を得た。
ダウンストリームタスクにおけるDCの利点を示すために,最新の機械翻訳(MT)システムと組み合わせて使用する場合,DCがBLEUスコアを平均5.65ポイント増加させることを示す。
私たちは、アノテーション付きデータセットと一緒に実験を実行するコードをリリースします。
関連論文リスト
- Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Congolese Swahili Machine Translation for Humanitarian Response [0.05526111147542002]
本稿では,双方向コンゴをフランスのニューラルマシン翻訳システムに適用する試みについて述べる。
トレーニングのために25,302文の一般ドメイン並列コーパスを作成しました。
SWC-FRAおよびFRA-SWC方向で最大2.4および3.5BLEU点の改善を記録しました。
論文 参考訳(メタデータ) (2021-03-19T11:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。