論文の概要: Knowledge Based Template Machine Translation In Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2209.03554v1
- Date: Thu, 8 Sep 2022 04:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:38:17.722831
- Title: Knowledge Based Template Machine Translation In Low-Resource Setting
- Title(参考訳): 低リソース設定における知識ベーステンプレート機械翻訳
- Authors: Zilu Tang, Derry Wijaya
- Abstract要約: 異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果について検討する。
タグ・アンド・コピー機構(ソース文中のNEをタグし、ターゲット文にコピー)は、高リソース設定でのみ翻訳を改善する。
- 参考スコア(独自算出の注目度): 2.7847784580193284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating tagging into neural machine translation (NMT) systems has shown
promising results in helping translate rare words such as named entities (NE).
However, translating NE in low-resource setting remains a challenge. In this
work, we investigate the effect of using tags and NE hypernyms from knowledge
graphs (KGs) in parallel corpus in different levels of resource conditions. We
find the tag-and-copy mechanism (tag the NEs in the source sentence and copy
them to the target sentence) improves translation in high-resource settings
only. Introducing copying also results in polarizing effects in translating
different parts-of-speech (POS). Interestingly, we find that copy accuracy for
hypernyms is consistently higher than that of entities. As a way of avoiding
"hard" copying and utilizing hypernym in bootstrapping rare entities, we
introduced a "soft" tagging mechanism and found consistent improvement in high
and low-resource settings.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)システムへのタグ付けの導入は、名前付きエンティティ(NE)のような稀な単語の翻訳を支援する上で有望な結果を示している。
しかし、低リソース環境でのNEの翻訳は依然として課題である。
本研究では,異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果を検討する。
タッグ・アンド・コピー機構(ソース文中のnesをタグ付けしてターゲット文にコピーする)は、高リソース設定でのみ翻訳を改善する。
コピーの導入はまた、異なる音声(POS)の翻訳における分極効果をもたらす。
興味深いことに、ハイパーニムのコピー精度はエンティティのコピー精度よりも一貫して高い。
希少なエンティティのブートストラップにおける"ハード"コピーとhypernymの利用を避ける方法として,"ソフト"タグ機構を導入し,高リソースと低リソース設定で一貫した改善が得られた。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - High-Quality Data Augmentation for Low-Resource NMT: Combining a Translation Memory, a GAN Generator, and Filtering [1.8843687952462742]
本稿では,低リソース環境下でのニューラルネットワーク翻訳(NMT)を支援するために,ソース側でモノリンガルコーパスを利用する新しい手法を提案する。
この概念はGAN(Generative Adversarial Network)を用いて,低品質な合成モノリンガル翻訳とジェネレータとの干渉を緩和しつつ,識別器のトレーニングデータを増強する。
論文 参考訳(メタデータ) (2024-08-22T02:35:47Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! [13.120825574589437]
本研究では,Transformer-based neural machine translation (NMT) が高リソース環境において非常に有効であることを示す。
このモデルでは,近縁な言語対と遠縁な言語対に対する改善が示されていない。
この動作の理由に関する議論は、LR NMTのいくつかの一般的な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-03-16T16:17:47Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Decoding Time Lexical Domain Adaptationfor Neural Machine Translation [7.628949147902029]
特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
論文 参考訳(メタデータ) (2021-01-02T11:06:15Z) - Explicit Sentence Compression for Neural Machine Translation [110.98786673598016]
State-of-the-the-art Transformer-based Neural Machine Translation (NMT)システムはまだ標準のエンコーダデコーダフレームワークに従っている。
バックボーン情報は 文のギストを表すもので 具体的には 焦点を絞っていません
提案手法は,NMTのソース文表現を強化するための明示的な文圧縮手法である。
論文 参考訳(メタデータ) (2019-12-27T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。