Fugu-MT 論文翻訳(概要): Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data

論文の概要: Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data

arxiv url: http://arxiv.org/abs/2504.21747v2
Date: Wed, 01 Oct 2025 14:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.559978
Title: Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data
Title（参考訳）: 単言語データを用いた検索強化ニューラルネットワーク翻訳の改良
Authors: Maxime Bouthors, Josep Crego, François Yvon,
Abstract要約: 多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。文レベルと単語レベルの整合性を両立させた改良型言語間検索システムを設計した。また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。
参考スコア（独自算出の注目度）: 18.150384435635477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional retrieval-augmented neural machine translation (RANMT) systems leverage bilingual corpora, e.g., translation memories (TMs). Yet, in many settings, monolingual corpora in the target language are often available. This work explores ways to take advantage of such resources by directly retrieving relevant target language segments, based on a source-side query. For this, we design improved cross-lingual retrieval systems, trained with both sentence level and word-level matching objectives. In our experiments with three RANMT architectures, we assess such cross-lingual objectives in a controlled setting, reaching performances that match those of standard TM-based models. We also showcase our method on a real-world settings, using much larger monolingual and observe strong improvements over both the baseline setting and general-purpose cross-lingual retrievers.
Abstract（参考訳）: 従来の検索強化ニューラルマシン翻訳(RANMT)システムはバイリンガルコーパス(eg)、翻訳記憶(TM)を利用する。しかし、多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。この研究は、ソース側クエリに基づいて、関連するターゲット言語セグメントを直接検索することで、そのようなリソースを活用する方法を探究する。そこで我々は,文レベルと単語レベルの整合性を両立させた言語間検索システムの設計を行った。 3つのRANMTアーキテクチャを用いた実験では,これらの言語間の目的を制御された環境で評価し,標準的なTMモデルと一致する性能に到達した。また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。

関連論文リスト

Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs [47.944645462877894]
Referring Expression (REC) は、自然言語の記述に基づいてオブジェクトを画像にローカライズするモデルを必要とする。この研究は2つの主要な貢献を通じて多言語RECに対処する。 10言語にまたがる統合多言語データセットを構築し、機械翻訳と文脈に基づく翻訳拡張により、既存の12のRECベンチマークを体系的に拡張する。得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
論文参考訳（メタデータ） (2025-11-14T15:54:34Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
Improving Multilingual Neural Machine Translation System for Indic Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文参考訳（メタデータ） (2022-09-27T09:51:56Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文参考訳（メタデータ） (2021-01-21T00:15:38Z)
Multilingual Transfer Learning for QA Using Translation as Data Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-10T20:29:34Z)
A Hybrid Approach for Improved Low Resource Neural Machine Translation using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文参考訳（メタデータ） (2020-11-14T22:18:45Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)
Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文参考訳（メタデータ） (2020-04-07T19:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。