論文の概要: Inference-only sub-character decomposition improves translation of
unseen logographic characters
- arxiv url: http://arxiv.org/abs/2011.06523v1
- Date: Thu, 12 Nov 2020 17:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:08:09.832089
- Title: Inference-only sub-character decomposition improves translation of
unseen logographic characters
- Title(参考訳): 推論専用サブ文字分解による未知文字の翻訳の改善
- Authors: Danielle Saunders, Weston Feely, Bill Byrne
- Abstract要約: ログソース言語上のニューラルマシン翻訳(NMT)は、未知の文字を翻訳する際に苦労する。
中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討する。
完全部分文字分解は文字翻訳を損なうことが多く、概して矛盾する結果をもたらす。
- 参考スコア(独自算出の注目度): 18.148675498274866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) on logographic source languages struggles
when translating `unseen' characters, which never appear in the training data.
One possible approach to this problem uses sub-character decomposition for
training and test sentences. However, this approach involves complete
retraining, and its effectiveness for unseen character translation to
non-logographic languages has not been fully explored.
We investigate existing ideograph-based sub-character decomposition
approaches for Chinese-to-English and Japanese-to-English NMT, for both
high-resource and low-resource domains. For each language pair and domain we
construct a test set where all source sentences contain at least one unseen
logographic character. We find that complete sub-character decomposition often
harms unseen character translation, and gives inconsistent results generally.
We offer a simple alternative based on decomposition before inference for
unseen characters only. Our approach allows flexible application, achieving
translation adequacy improvements and requiring no additional models or
training.
- Abstract(参考訳): logographic source languageのneural machine translation(nmt)は、トレーニングデータには現れない‘unseen’文字の翻訳に苦労している。
この問題に対する1つの可能なアプローチは、訓練とテスト文のサブキャラクタ分解である。
しかし,本手法は完全再学習を伴い,非書誌言語への未確認文字翻訳の有効性は十分に検討されていない。
我々は,中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討した。
各言語ペアとドメインに対して、すべてのソース文が少なくとも1つの見えないログラフ文字を含むテストセットを構築します。
完全部分文字分解は文字翻訳を損なうことが多く、一般に矛盾する結果をもたらす。
未知文字のみを推論する前に、分解に基づく単純な代替手段を提供する。
当社のアプローチでは、フレキシブルなアプリケーション、翻訳精度の向上、追加のモデルやトレーニングの必要がなくなります。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。