論文の概要: CJaFr-v3 : A Freely Available Filtered Japanese-French Aligned Corpus
- arxiv url: http://arxiv.org/abs/2208.13170v1
- Date: Sun, 28 Aug 2022 08:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:40:07.357973
- Title: CJaFr-v3 : A Freely Available Filtered Japanese-French Aligned Corpus
- Title(参考訳): CJaFr-v3 : 無料フィルター付き日仏アライメントコーパス
- Authors: Raoul Blin and Fabien Cromi\`eres
- Abstract要約: 日本語とフランス語のパラレルコーパスを無償で提供する。
15Mの整列セグメントを含み、既存のリソースのコンパイルとフィルタリングによって得られる。
本稿では,既存の資源,その量と品質,コーパスの品質向上のためのフィルタリング,使用可能なコーパスの内容について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a free Japanese-French parallel corpus. It includes 15M aligned
segments and is obtained by compiling and filtering several existing resources.
In this paper, we describe the existing resources, their quantity and quality,
the filtering we applied to improve the quality of the corpus, and the content
of the ready-to-use corpus. We also evaluate the usefulness of this corpus and
the quality of our filtering by training and evaluating some standard MT
systems with it.
- Abstract(参考訳): 本稿では,自由日仏並列コーパスを提案する。
15Mの整列セグメントを含み、既存のリソースのコンパイルとフィルタリングによって得られる。
本稿では,既存の資源,その量と品質,コーパスの品質向上に応用したフィルタリング,利用準備の整ったコーパスの内容について述べる。
また,このコーパスの有用性とフィルタリングの質を,標準的なMTシステムのトレーニングと評価によって評価する。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - "A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering
improves Machine Translation [36.9886023078247]
疑似並列コーパスから高品質並列データを抽出するための品質推定に基づくフィルタリング手法を提案する。
我々は,英語・マラタイ語・中国語・ヒンディー語・ベンガル語対について,最大1.8BLEUポイントの機械翻訳(MT)システムの性能改善を観察した。
英語とマラソンのQEモデルから学習し,わずか500のヒンディー・ベンガル語訓練インスタンスを微調整し,ヒンディー・ベンガル語対に対する最大0.6BLEU点の改善を示した。
論文 参考訳(メタデータ) (2023-06-06T08:53:01Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Revisiting Low Resource Status of Indian Languages in Machine
Translation [43.62422999765863]
インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。
我々は、インド言語ニューラルマシン翻訳(NMT)システムのためのこのようなコーパスを得るために、自動化されたフレームワークを提供し、分析する。
論文 参考訳(メタデータ) (2020-08-11T17:05:13Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。