論文の概要: Knowledge Based Template Machine Translation In Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2209.03554v1
- Date: Thu, 8 Sep 2022 04:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:38:17.722831
- Title: Knowledge Based Template Machine Translation In Low-Resource Setting
- Title(参考訳): 低リソース設定における知識ベーステンプレート機械翻訳
- Authors: Zilu Tang, Derry Wijaya
- Abstract要約: 異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果について検討する。
タグ・アンド・コピー機構(ソース文中のNEをタグし、ターゲット文にコピー)は、高リソース設定でのみ翻訳を改善する。
- 参考スコア(独自算出の注目度): 2.7847784580193284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating tagging into neural machine translation (NMT) systems has shown
promising results in helping translate rare words such as named entities (NE).
However, translating NE in low-resource setting remains a challenge. In this
work, we investigate the effect of using tags and NE hypernyms from knowledge
graphs (KGs) in parallel corpus in different levels of resource conditions. We
find the tag-and-copy mechanism (tag the NEs in the source sentence and copy
them to the target sentence) improves translation in high-resource settings
only. Introducing copying also results in polarizing effects in translating
different parts-of-speech (POS). Interestingly, we find that copy accuracy for
hypernyms is consistently higher than that of entities. As a way of avoiding
"hard" copying and utilizing hypernym in bootstrapping rare entities, we
introduced a "soft" tagging mechanism and found consistent improvement in high
and low-resource settings.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)システムへのタグ付けの導入は、名前付きエンティティ(NE)のような稀な単語の翻訳を支援する上で有望な結果を示している。
しかし、低リソース環境でのNEの翻訳は依然として課題である。
本研究では,異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果を検討する。
タッグ・アンド・コピー機構(ソース文中のnesをタグ付けしてターゲット文にコピーする)は、高リソース設定でのみ翻訳を改善する。
コピーの導入はまた、異なる音声(POS)の翻訳における分極効果をもたらす。
興味深いことに、ハイパーニムのコピー精度はエンティティのコピー精度よりも一貫して高い。
希少なエンティティのブートストラップにおける"ハード"コピーとhypernymの利用を避ける方法として,"ソフト"タグ機構を導入し,高リソースと低リソース設定で一貫した改善が得られた。
関連論文リスト
- Machine Translation Models are Zero-Shot Detectors of Translation
Direction [52.1701152610258]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Joint Dropout: Improving Generalizability in Low-Resource Neural Machine
Translation through Phrase Pair Variables [17.300004156754966]
本稿では,低リソースのニューラルマシン翻訳において,句を変数に置き換えることによる課題に対処する,ジョイントドロップアウト(Joint Dropout)という手法を提案する。
BLEU と Direct Assessment のスコアに示すように,最小限のリソースを持つ言語対の翻訳品質は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-24T14:33:49Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Learning Homographic Disambiguation Representation for Neural Machine
Translation [20.242134720005467]
ニューラル・マシン・トランスレーション(NMT)において、同じ綴りだが異なる意味を持つ単語であるホモグラフは依然として困難である
我々は、潜伏空間におけるNMT問題に取り組むための新しいアプローチを提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶために、エンコーダ(別名ホモグラフィックエンコーダ)を訓練する。
さらに、ホモグラフベースの合成WordNetを用いてエンコーダを微調整し、文から単語集合表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T13:42:59Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Decoding Time Lexical Domain Adaptationfor Neural Machine Translation [7.628949147902029]
特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
論文 参考訳(メタデータ) (2021-01-02T11:06:15Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - Explicit Sentence Compression for Neural Machine Translation [110.98786673598016]
State-of-the-the-art Transformer-based Neural Machine Translation (NMT)システムはまだ標準のエンコーダデコーダフレームワークに従っている。
バックボーン情報は 文のギストを表すもので 具体的には 焦点を絞っていません
提案手法は,NMTのソース文表現を強化するための明示的な文圧縮手法である。
論文 参考訳(メタデータ) (2019-12-27T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。