論文の概要: Translation of Multifaceted Data without Re-Training of Machine Translation Systems
- arxiv url: http://arxiv.org/abs/2404.16257v2
- Date: Wed, 25 Sep 2024 02:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 03:03:34.816737
- Title: Translation of Multifaceted Data without Re-Training of Machine Translation Systems
- Title(参考訳): 機械翻訳システムの再学習を伴わない多面的データの翻訳
- Authors: Hyeonseok Moon, Seungyoon Lee, Seongtae Hong, Seungjun Lee, Chanjun Park, Heuiseok Lim,
- Abstract要約: このプラクティスは、しばしば同じデータポイント内のコンポーネント間の相互関係を見落としている、と私たちは主張する。
MTパイプラインでは、データポイント内のすべてのコンポーネントが実装され、単一の翻訳シーケンスを形成します。
学習データとしての有効性とともに,翻訳品質自体の大幅な向上を実現しています。
- 参考スコア(独自算出の注目度): 11.153121299726175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating major language resources to build minor language resources becomes a widely-used approach. Particularly in translating complex data points composed of multiple components, it is common to translate each component separately. However, we argue that this practice often overlooks the interrelation between components within the same data point. To address this limitation, we propose a novel MT pipeline that considers the intra-data relation in implementing MT for training data. In our MT pipeline, all the components in a data point are concatenated to form a single translation sequence and subsequently reconstructed to the data components after translation. We introduce a Catalyst Statement (CS) to enhance the intra-data relation, and Indicator Token (IT) to assist the decomposition of a translated sequence into its respective data components. Through our approach, we have achieved a considerable improvement in translation quality itself, along with its effectiveness as training data. Compared with the conventional approach that translates each data component separately, our method yields better training data that enhances the performance of the trained model by 2.690 points for the web page ranking (WPR) task, and 0.845 for the question generation (QG) task in the XGLUE benchmark.
- Abstract(参考訳): 主要な言語リソースを翻訳してマイナーな言語リソースを構築することは、広く使われているアプローチである。
特に、複数のコンポーネントで構成される複雑なデータポイントの翻訳では、各コンポーネントを別々に翻訳することが一般的である。
しかし、このプラクティスは、しばしば同じデータポイント内のコンポーネント間の相互関係を見落としている。
この制限に対処するため,トレーニングデータにMTを実装する際のデータ内関係を考慮した新しいMTパイプラインを提案する。
MTパイプラインでは、データポイント内のすべてのコンポーネントを連結して単一の翻訳シーケンスを形成し、その後、データコンポーネントに変換後、再構築する。
本稿では,データ内関係を高めるための触媒ステートメント (CS) と,各データコンポーネントへの翻訳配列の分解を支援する指標トークン (IT) を導入する。
提案手法は,学習データとしての有効性とともに,翻訳品質自体の大幅な向上を実現している。
XGLUEベンチマークでは,Webページランキング(WPR)タスクは2.690ポイント,質問生成(QG)タスクは0.845ポイント向上した。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Diverse Pretrained Context Encodings Improve Document Translation [31.03899564183553]
複数の事前訓練された文書コンテキスト信号を組み込んだ文レベルのシーケンス・ツー・シーケンス・トランスフォーマに適応する新しいアーキテクチャを提案する。
最高のマルチコンテキストモデルは、既存のコンテクスト対応トランスフォーマーよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-07T15:28:01Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。