論文の概要: Congolese Swahili Machine Translation for Humanitarian Response
- arxiv url: http://arxiv.org/abs/2103.10734v1
- Date: Fri, 19 Mar 2021 11:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:36:23.690098
- Title: Congolese Swahili Machine Translation for Humanitarian Response
- Title(参考訳): 人道支援のためのコンゴスワヒリ機械翻訳
- Authors: Alp \"Oktem, Eric DeLuca, Rodrigue Bashizi, Eric Paquin, Grace Tang
- Abstract要約: 本稿では,双方向コンゴをフランスのニューラルマシン翻訳システムに適用する試みについて述べる。
トレーニングのために25,302文の一般ドメイン並列コーパスを作成しました。
SWC-FRAおよびFRA-SWC方向で最大2.4および3.5BLEU点の改善を記録しました。
- 参考スコア(独自算出の注目度): 0.05526111147542002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we describe our efforts to make a bidirectional Congolese
Swahili (SWC) to French (FRA) neural machine translation system with the
motivation of improving humanitarian translation workflows. For training, we
created a 25,302-sentence general domain parallel corpus and combined it with
publicly available data. Experimenting with low-resource methodologies like
cross-dialect transfer and semi-supervised learning, we recorded improvements
of up to 2.4 and 3.5 BLEU points in the SWC-FRA and FRA-SWC directions,
respectively. We performed human evaluations to assess the usability of our
models in a COVID-domain chatbot that operates in the Democratic Republic of
Congo (DRC). Direct assessment in the SWC-FRA direction demonstrated an average
quality ranking of 6.3 out of 10 with 75% of the target strings conveying the
main message of the source text. For the FRA-SWC direction, our preliminary
tests on post-editing assessment showed its potential usefulness for
machine-assisted translation. We make our models, datasets containing up to 1
million sentences, our development pipeline, and a translator web-app available
for public use.
- Abstract(参考訳): 本稿では、人道的翻訳ワークフローを改善する動機を生かした双方向コンゴスワヒリ(SWC)をフランス語(FRA)ニューラルマシン翻訳システムに適用する取り組みについて述べる。
トレーニングのために25,302文の一般ドメイン並列コーパスを作成し,公開データと組み合わせた。
クロスダイアレクトトランスファーやセミ教師付き学習といった低リソース手法を用いて,swc-fraとfra-swcの方向における2.4点と3.5点の改善をそれぞれ記録した。
コンゴ民主共和国(DRC)で運用されている新型コロナウイルスのチャットボットを用いて,モデルのユーザビリティを評価するため,人間による評価を行った。
swc-fra方向の直接評価では、平均品質ランキングは10中6.3で、対象文字列の75%がソーステキストのメインメッセージを伝える。
FRA-SWC方向では, 後編集評価の予備試験により, 機械翻訳に有用である可能性が示唆された。
モデル、最大100万の文を含むデータセット、開発パイプライン、パブリック使用用のトランスレータWebアプリを作成しています。
関連論文リスト
- Rethinking Human-like Translation Strategy: Integrating Drift-Diffusion
Model with Large Language Models for Machine Translation [15.333148705267012]
本稿では,人間翻訳者の動的意思決定を制約リソース下でエミュレートするために,Drift-Diffusion Modelを用いたThinkerを提案する。
WMT22とCommonMTのデータセットを用いて、高リソース、低リソース、コモンセンスの翻訳設定で実験を行う。
また,提案手法の有効性と有効性を示すために,コモンセンス翻訳のさらなる分析と評価を行う。
論文 参考訳(メタデータ) (2024-02-16T14:00:56Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - SurreyAI 2023 Submission for the Quality Estimation Shared Task [17.122657128702276]
本稿では,SurreyAIチームがWMT23のSentence-Level Direct Assessmentタスクに導入したアプローチについて述べる。
提案手法はTransQuestフレームワーク上に構築され、様々なオートエンコーダで事前訓練された言語モデルを探索する。
評価はスピアマンとピアソンの相関係数を用いて, 機械予測品質スコアと人的判断との関係を評価する。
論文 参考訳(メタデータ) (2023-12-01T12:01:04Z) - DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages [68.66827612799577]
ディフルエンシ補正(Disfluency correction, DC)とは、話し言葉からフィラー、繰り返し、訂正などの不適切な要素を取り除き、読みやすく解釈可能なテキストを作成する過程である。
Indo-Europeanの4つの重要な言語(英語、ヒンディー語、ドイツ語、フランス語)を網羅した、高品質な人間の注釈付きDCコーパスを提示する。
最新の機械翻訳(MT)システムと併用した場合,DCはBLEUスコアを平均5.65ポイント増加させることを示す。
論文 参考訳(メタデータ) (2023-10-25T16:32:02Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Cross-lingual Retrieval for Iterative Self-Supervised Training [66.3329263451598]
言語間のアライメントは、Seq2seqモデルを、自身のエンコーダ出力を用いてマイニングされた文対上で訓練することでさらに改善することができる。
我々は,反復型自己教師型訓練のための言語間検索という新しい手法を開発した。
論文 参考訳(メタデータ) (2020-06-16T21:30:51Z) - Using LSTM to Translate French to Senegalese Local Languages: Wolof as a
Case Study [0.0]
我々は,低リソースのNiger-Congo言語であるWolofのニューラルマシン翻訳システムを提案する。
私たちは7万行のフランス語-ウーロフ文の平行コーパスを集めました。
われわれのモデルは、限られた量のフランス語とWolofのデータに基づいて訓練されている。
論文 参考訳(メタデータ) (2020-03-27T17:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。