Fugu-MT 論文翻訳(概要): Milimili. Collecting Parallel Data via Crowdsourcing

関連論文リスト

Investigating the Effect of Parallel Data in the Cross-Lingual Transfer for Vision-Language Encoders [0.0]
トレーニング済みのVision-Language(VL)モデルと下流タスクのトレーニングデータは英語でのみ利用可能である。並列データを用いて、すでに訓練済みのエンコーダを転送する。その結果,機械翻訳されたタスクデータでさえ,平均的,キャプション的,真に並列なデータの方が,いくつかの言語で優れていたことが判明した。
論文参考訳（メタデータ） (2025-04-30T14:19:15Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文参考訳（メタデータ） (2024-07-03T14:23:36Z)
A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining [20.18032411452028]
バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
論文参考訳（メタデータ） (2024-05-15T00:54:40Z)
Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文参考訳（メタデータ） (2023-11-07T03:50:25Z)
On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。モデルが生成した並列データでさえ、下流のタスクに役立ちます。以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文参考訳（メタデータ） (2022-12-20T11:23:04Z)
Language Agnostic Multilingual Information Retrieval with Contrastive Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。我々のモデルは少数のパラレル文でもうまく機能する。
論文参考訳（メタデータ） (2022-10-12T23:53:50Z)
Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文参考訳（メタデータ） (2021-09-03T17:15:38Z)
Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文参考訳（メタデータ） (2021-01-20T17:54:47Z)
Practical Comparable Data Collection for Low-Resource Languages via Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文参考訳（メタデータ） (2020-04-24T19:30:38Z)
Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文参考訳（メタデータ） (2019-12-26T01:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Milimili. Collecting Parallel Data via Crowdsourcing

関連論文リスト