論文の概要: A Survey on Zero Pronoun Translation
- arxiv url: http://arxiv.org/abs/2305.10196v1
- Date: Wed, 17 May 2023 13:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:59:53.083744
- Title: A Survey on Zero Pronoun Translation
- Title(参考訳): ゼロ代名詞翻訳に関する調査研究
- Authors: Longyue Wang, Siyou Liu, Mingzhou Xu, Linfeng Song, Shuming Shi,
Zhaopeng Tu
- Abstract要約: ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
- 参考スコア(独自算出の注目度): 69.09774294082965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero pronouns (ZPs) are frequently omitted in pro-drop languages (e.g.
Chinese, Hungarian, and Hindi), but should be recalled in non-pro-drop
languages (e.g. English). This phenomenon has been studied extensively in
machine translation (MT), as it poses a significant challenge for MT systems
due to the difficulty in determining the correct antecedent for the pronoun.
This survey paper highlights the major works that have been undertaken in zero
pronoun translation (ZPT) after the neural revolution, so that researchers can
recognise the current state and future directions of this field. We provide an
organisation of the literature based on evolution, dataset, method and
evaluation. In addition, we compare and analyze competing models and evaluation
metrics on different benchmarks. We uncover a number of insightful findings
such as: 1) ZPT is in line with the development trend of large language model;
2) data limitation causes learning bias in languages and domains; 3)
performance improvements are often reported on single benchmarks, but advanced
methods are still far from real-world use; 4) general-purpose metrics are not
reliable on nuances and complexities of ZPT, emphasizing the necessity of
targeted metrics; 5) apart from commonly-cited errors, ZPs will cause risks of
gender bias.
- Abstract(参考訳): ゼロ代名詞(ZP)はプロドロップ言語(中国語、ハンガリー語、ヒンディー語など)では省略されることが多いが、非プロドロップ言語(英語など)ではリコールされるべきである。
この現象は機械翻訳(MT)において広く研究されており、代名詞の正しい先行詞を決定するのが困難であるため、MTシステムにとって大きな課題となっている。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究成果を取り上げ, その現状と今後の方向性を研究者が認識できるようにした。
我々は、進化、データセット、方法、評価に基づく文学の組織を提供する。
さらに、異なるベンチマークで競合するモデルと評価指標を比較し分析する。
私たちは次のような洞察に富んだ発見をたくさん発見した。
1) ZPTは, 大規模言語モデルの発展傾向と一致している。
2 データ制限は、言語及びドメインの学習バイアスを引き起こす。
3) パフォーマンス改善は単一のベンチマークで報告されることが多いが、高度なメソッドは実際の使用には程遠い。
4) 汎用メトリクスは、ZPTのニュアンスや複雑さに頼らず、対象メトリクスの必要性を強調している。
5) 一般的に語られる誤りとは別に、ZPは性バイアスのリスクを引き起こす。
関連論文リスト
- Investigating Markers and Drivers of Gender Bias in Machine Translations [0.0]
大型言語モデル(LLM)におけるインプシット性バイアスは、文書化された問題である。
我々は、DeepL翻訳APIを使用して、56のソフトウェアエンジニアリングタスクを繰り返し翻訳する際に生じるバイアスを調査する。
いくつかの言語は、類似した代名詞の使用パターンを示し、3つの緩いグループに分類する。
文中に出現する主動詞は,翻訳における意味のあるジェンダーの要因である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-18T15:54:46Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文 参考訳(メタデータ) (2023-05-24T10:26:13Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。