論文の概要: Milimili. Collecting Parallel Data via Crowdsourcing
- arxiv url: http://arxiv.org/abs/2307.12282v1
- Date: Sun, 23 Jul 2023 10:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:01:47.804151
- Title: Milimili. Collecting Parallel Data via Crowdsourcing
- Title(参考訳): ミリミリ
クラウドソーシングによる並列データ収集
- Authors: Alexander Antonov
- Abstract要約: クラウドソーシングによる並列コーパスの収集手法を提案する。
我々は、チェチェン・ロシア語とフラ・イングリッシュ語の組み合わせについて、実験的な並列データを収集した。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a methodology for gathering a parallel corpus through
crowdsourcing, which is more cost-effective than hiring professional
translators, albeit at the expense of quality. Additionally, we have made
available experimental parallel data collected for Chechen-Russian and
Fula-English language pairs.
- Abstract(参考訳): 本稿では,クラウドソーシングによる並列コーパスの収集手法を提案する。
さらに,Chechen- Russian と Fula- English のペアに対して,実験的な並列データを収集した。
関連論文リスト
- Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining [20.18032411452028]
バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
論文 参考訳(メタデータ) (2024-05-15T00:54:40Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。