論文の概要: Domain adapted machine translation: What does catastrophic forgetting forget and why?
- arxiv url: http://arxiv.org/abs/2412.17537v1
- Date: Mon, 23 Dec 2024 12:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:36.294615
- Title: Domain adapted machine translation: What does catastrophic forgetting forget and why?
- Title(参考訳): ドメイン適応機械翻訳:破滅的な忘れ忘れとなぜ忘れるのか?
- Authors: Danielle Saunders, Steve DeNeefe,
- Abstract要約: 本論文は,NTT適応時の破滅的忘れを理解するための新しいアプローチである。
ドメイン内のデータと忘れることの関係について検討し、そのデータのターゲット語彙カバレッジと、忘れることの量と種類が関連していることを示す。
- 参考スコア(独自算出の注目度): 4.742123770879715
- License:
- Abstract: Neural Machine Translation (NMT) models can be specialized by domain adaptation, often involving fine-tuning on a dataset of interest. This process risks catastrophic forgetting: rapid loss of generic translation quality. Forgetting has been widely observed, with many mitigation methods proposed. However, the causes of forgetting and the relationship between forgetting and adaptation data are under-explored. This paper takes a novel approach to understanding catastrophic forgetting during NMT adaptation by investigating the impact of the data. We provide a first investigation of what is forgotten, and why. We examine the relationship between forgetting and the in-domain data, and show that the amount and type of forgetting is linked to that data's target vocabulary coverage. Our findings pave the way toward better informed NMT domain adaptation.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)モデルは、ドメイン適応によって特殊化することができ、しばしば興味のあるデータセットを微調整する。
このプロセスは破滅的な忘れ物、すなわち翻訳品質の急激な低下のリスクを負う。
フォーミングは広く観察され、多くの緩和法が提案されている。
しかし、忘れる原因と、忘れるデータと適応データとの関係は未解明である。
本研究では,NMT適応時の破滅的忘れの理解に新たなアプローチを採り入れ,その影響について検討する。
忘れられているもの、なぜあるのかを最初に調査する。
ドメイン内のデータと忘れることの関係を調べた結果、忘れることの量と種類が、そのデータの対象語彙のカバレッジと結びついていることが判明した。
以上の結果から,NMTドメイン適応の方向性が示唆された。
関連論文リスト
- Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - Reducing Gender Bias in Machine Translation through Counterfactual Data
Generation [0.0]
訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳詞 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語
また,反実データ生成技術を用いて作成したドメイン内データを活用する新しいドメイン適応手法を提案する。
関連するコードはGithubで入手できる。
論文 参考訳(メタデータ) (2023-11-27T23:03:01Z) - Incorporating Pre-training Data Matters in Unsupervised Domain
Adaptation [13.509286043322442]
非教師付きドメイン適応(UDA)とソースフリーなUDA(SFUDA)メソッドは、ソースとターゲットの2つのドメインに関わる問題を定式化する。
我々は、ImageNet、ソース、ターゲットドメイン間の相関について検討する。
本稿では,訓練前のデータセットのセマンティック構造を微調整時に保持する新しいフレームワークTriDAを提案する。
論文 参考訳(メタデータ) (2023-08-06T12:23:40Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - What Knowledge Is Needed? Towards Explainable Memory for kNN-MT Domain
Adaptation [45.35907027125192]
kNN-MTは、外部データストアを構築することにより、ドメイン適応のための新しいパラダイムを提供する。
NMTモデルはどのような知識を必要とするのか?
6つの異なるターゲットドメインと2つの言語ペアの実験により、局所的正当性に応じたプルーニングはkNN-MTドメイン適応のための軽量で説明可能なメモリをもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-08T07:23:09Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。