Fugu-MT 論文翻訳(概要): A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations

論文の概要: A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations

arxiv url: http://arxiv.org/abs/2409.02712v1
Date: Wed, 4 Sep 2024 13:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 18:06:49.986840
Title: A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations
Title（参考訳）: 言語間文表現を用いた低資源機械翻訳のためのデータ選択手法
Authors: Nidhi Kowtal, Tejas Deshpande, Raviraj Joshi,
Abstract要約: 本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
参考スコア（独自算出の注目度）: 0.4499833362998489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine translation in low-resource language pairs faces significant challenges due to the scarcity of parallel corpora and linguistic resources. This study focuses on the case of English-Marathi language pairs, where existing datasets are notably noisy, impeding the performance of machine translation models. To mitigate the impact of data quality issues, we propose a data filtering approach based on cross-lingual sentence representations. Our methodology leverages a multilingual SBERT model to filter out problematic translations in the training data. Specifically, we employ an IndicSBERT similarity model to assess the semantic equivalence between original and translated sentences, allowing us to retain linguistically correct translations while discarding instances with substantial deviations. The results demonstrate a significant improvement in translation quality over the baseline post-filtering with IndicSBERT. This illustrates how cross-lingual sentence representations can reduce errors in machine translation scenarios with limited resources. By integrating multilingual sentence BERT models into the translation pipeline, this research contributes to advancing machine translation techniques in low-resource environments. The proposed method not only addresses the challenges in English-Marathi language pairs but also provides a valuable framework for enhancing translation quality in other low-resource language translation tasks.
Abstract（参考訳）: 低リソース言語対における機械翻訳は、並列コーパスと言語資源の不足により、重大な課題に直面している。本研究は、既存のデータセットが特にうるさく、機械翻訳モデルの性能を損なう英語-マラティー語対の場合に焦点を当てる。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。本手法は多言語SBERTモデルを用いて,学習データ中の問題翻訳をフィルタリングする。具体的には、IndicSBERT類似性モデルを用いて、原文と翻訳文間の意味的等価性を評価し、言語学的に正しい翻訳を保ちながら、かなりのずれのあるインスタンスを破棄することができる。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。このことは、言語間の文表現が限られたリソースを持つ機械翻訳シナリオのエラーを減らす方法を示している。本研究は,多言語文BERTモデルを翻訳パイプラインに統合することにより,低リソース環境における機械翻訳技術の進歩に寄与する。提案手法は、英語とマラティア語の組み合わせの課題に対処するだけでなく、他の低リソース言語翻訳タスクの翻訳品質を高めるための貴重なフレームワークを提供する。

関連論文リスト

Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文参考訳（メタデータ） (2025-09-24T15:02:57Z)
Aligning Large Language Models to Low-Resource Languages through LLM-Based Selective Translation: A Systematic Study [1.0470286407954037]
選択的翻訳は、翻訳不可能な内容と文構造を保持しながら、テキストの翻訳可能な部分のみを翻訳する技法である。実験では、低リソースのIndic言語Hindiに着目し、Google Cloud Translation(GCP)とLlama-3.1-405Bで生成された翻訳を比較した。
論文参考訳（メタデータ） (2025-07-18T18:21:52Z)
The Saturation Point of Backtranslation in High Quality Low Resource English Gujarati Machine Translation [0.0]
バックトランスレーションBTは低リソース機械翻訳MTにおいてモノリンガルコーパスを用いた追加の合成訓練データを生成するために広く利用されている。多言語事前学習MBART50モデルを用いた英語グジャラート翻訳における逆翻訳の有効性について検討する。
論文参考訳（メタデータ） (2025-06-12T09:02:53Z)
Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文参考訳（メタデータ） (2025-05-05T08:47:52Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
本稿では,合成QEデータの分散シフトを緩和する新しいフレームワークであるADSQEを紹介する。 ADSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。実験によると、ADSQEはCOMETのようなSOTAベースラインを教師なしと教師なしの両方で上回っている。
論文参考訳（メタデータ） (2025-02-27T10:11:53Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
The Best of Both Worlds: Combining Human and Machine Translations for Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文参考訳（メタデータ） (2023-05-22T05:57:47Z)
MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文参考訳（メタデータ） (2023-05-08T09:48:21Z)
CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文参考訳（メタデータ） (2022-10-13T13:32:36Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文参考訳（メタデータ） (2021-07-23T17:11:27Z)
On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文参考訳（メタデータ） (2021-06-07T01:55:34Z)
Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文参考訳（メタデータ） (2020-04-05T02:14:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。