論文の概要: Accessing Higher Dimensions for Unsupervised Word Translation
- arxiv url: http://arxiv.org/abs/2305.14200v1
- Date: Tue, 23 May 2023 16:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:52:15.398327
- Title: Accessing Higher Dimensions for Unsupervised Word Translation
- Title(参考訳): 教師なし翻訳のための高次元アクセス
- Authors: Sida I. Wang
- Abstract要約: 教師なしの単語翻訳は、以前考えられていたよりも簡単かつ堅牢に実現できる。
我々は,高次元の共起数あるいはそれより低次元の近似を利用する方法であるコオクマップを提案する。
本結果は,低次元ベクトルの必要性と優越性に関する仮定に挑戦するものである。
- 参考スコア(独自算出の注目度): 9.619088923741762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The striking ability of unsupervised word translation has been demonstrated
with the help of word vectors / pretraining; however, they require large
amounts of data and usually fails if the data come from different domains. We
propose coocmap, a method that can use either high-dimensional co-occurrence
counts or their lower-dimensional approximations. Freed from the limits of low
dimensions, we show that relying on low-dimensional vectors and their
incidental properties miss out on better denoising methods and useful world
knowledge in high dimensions, thus stunting the potential of the data. Our
results show that unsupervised translation can be achieved more easily and
robustly than previously thought -- less than 80MB and minutes of CPU time is
required to achieve over 50\% accuracy for English to Finnish, Hungarian, and
Chinese translations when trained on similar data; even under domain mismatch,
we show coocmap still works fully unsupervised on English NewsCrawl to Chinese
Wikipedia and English Europarl to Spanish Wikipedia, among others. These
results challenge prevailing assumptions on the necessity and superiority of
low-dimensional vectors, and suggest that similarly processed co-occurrences
can outperform dense vectors on other tasks too.
- Abstract(参考訳): 教師なしの単語翻訳の顕著な能力は、単語ベクトル/事前学習の助けを借りて実証されてきたが、それらは大量のデータを必要とし、通常、データが異なるドメインから来ると失敗する。
本研究では,高次元共起数あるいは低次元近似を用いたcoocmapを提案する。
低次元の限界から解放された我々は、低次元ベクトルとその付随的性質に依存することは、高次元のより良い分別法と有用な世界知識を逃し、データのポテンシャルを阻害することを示している。
我々の結果は、教師なしの翻訳は従来考えられていたよりも簡単かつ堅牢に達成できることを示します - フィンランド語、ハンガリー語、中国語の翻訳において、同様のデータでトレーニングされた場合、80MB未満のCPU時間と50%以上の正確さが要求されます。
これらの結果は、低次元ベクトルの必要性と優越性に関する仮定に挑み、同様に処理された共曲は、他のタスクでも密集したベクトルを上回ることができることを示唆する。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Faithful Target Attribute Prediction in Neural Machine Translation [16.153683223016973]
目標単語と属性を同時に予測することは、トレーニングデータ分布に翻訳がより忠実であることを保証する効果的な方法である、と我々は主張する。
上段の入力翻訳と性別予測という2つのタスクの実験結果から,この戦略がテストにおけるトレーニングデータの分布を反映することを示す。
論文 参考訳(メタデータ) (2021-09-24T17:55:07Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。