論文の概要: The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning
- arxiv url: http://arxiv.org/abs/2305.12737v1
- Date: Mon, 22 May 2023 05:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:07:38.189447
- Title: The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning
- Title(参考訳): 両世界のベスト:多言語意味解析とアクティブラーニングのための人間と機械の翻訳の組み合わせ
- Authors: Zhuang Li, Lizhen Qu, Philip R. Cohen, Raj V. Tumuluri, Gholamreza
Haffari
- Abstract要約: 人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
- 参考スコア(独自算出の注目度): 50.320178219081484
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilingual semantic parsing aims to leverage the knowledge from the
high-resource languages to improve low-resource semantic parsing, yet commonly
suffers from the data imbalance problem. Prior works propose to utilize the
translations by either humans or machines to alleviate such issues. However,
human translations are expensive, while machine translations are cheap but
prone to error and bias. In this work, we propose an active learning approach
that exploits the strengths of both human and machine translations by
iteratively adding small batches of human translations into the
machine-translated training set. Besides, we propose novel aggregated
acquisition criteria that help our active learning method select utterances to
be manually translated. Our experiments demonstrate that an ideal utterance
selection can significantly reduce the error and bias in the translated data,
resulting in higher parser accuracies than the parsers merely trained on the
machine-translated data.
- Abstract(参考訳): マルチリンガルセマンティックパーシングは、低リソースセマンティックパーシングを改善するために、高リソース言語からの知識を活用することを目的としている。
先行研究は、人間か機械による翻訳を利用してこれらの問題を緩和することを提案した。
しかし、人間の翻訳は高価であり、機械翻訳は安価だが誤りや偏見がちである。
本研究では,機械翻訳学習セットに人間翻訳の小さなバッチを反復的に付加することにより,人間翻訳と機械翻訳の長所を生かした能動的学習手法を提案する。
さらに,能動学習手法が手動で翻訳する発話を選択するのに役立つ,新たな集合的獲得基準を提案する。
実験の結果, 理想的な発話選択は, 翻訳データの誤りやバイアスを著しく低減し, 機械翻訳データでのみ訓練された解析器よりも高い精度で解析できることがわかった。
関連論文リスト
- Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation [11.875491080062233]
ニューラルマシン翻訳(NMT)システムは、トレーニングデータに存在する語彙バイアスを増幅し、出力翻訳において人工的に不十分な言語を生み出す。
自然とコンテンツ保存の両方に報いる新しい方法を提案する。
本手法は英蘭文翻訳において評価され,翻訳精度を損なうことなく,語彙的に豊かで,人文言語の性質が向上する翻訳モデルが得られた。
論文 参考訳(メタデータ) (2024-12-11T15:42:22Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。