論文の概要: Data Augmentation Methods for Anaphoric Zero Pronouns
- arxiv url: http://arxiv.org/abs/2109.09825v1
- Date: Mon, 20 Sep 2021 20:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 03:10:37.680638
- Title: Data Augmentation Methods for Anaphoric Zero Pronouns
- Title(参考訳): アナフォリックゼロ代名詞に対するデータ拡張法
- Authors: Abdulrahman Aloraini and Massimo Poesio
- Abstract要約: 我々は5つのデータ拡張法を用いて自動でアナフォリックゼロ代名詞を生成・検出する。
アラビア語に対する2つのアナフォリックゼロ代名詞システムのための追加のトレーニング材料として、拡張データを使用する。
- 参考スコア(独自算出の注目度): 8.732165992971545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In pro-drop language like Arabic, Chinese, Italian, Japanese, Spanish, and
many others, unrealized (null) arguments in certain syntactic positions can
refer to a previously introduced entity, and are thus called anaphoric zero
pronouns. The existing resources for studying anaphoric zero pronoun
interpretation are however still limited. In this paper, we use five data
augmentation methods to generate and detect anaphoric zero pronouns
automatically. We use the augmented data as additional training materials for
two anaphoric zero pronoun systems for Arabic. Our experimental results show
that data augmentation improves the performance of the two systems, surpassing
the state-of-the-art results.
- Abstract(参考訳): アラビア語、中国語、イタリア語、日本語、スペイン語などのプロドロップ言語では、ある構文的位置における非現実的(null)引数は以前に導入された実体を参照することができ、したがってアナフォリックゼロ代名詞と呼ばれる。
しかし、アナフォリックゼロ代名詞解釈を研究するための既存のリソースはまだ限られている。
本稿では,5つのデータ拡張手法を用いて,アナフォリックゼロ代名詞の自動生成と検出を行う。
アラビア語に対する2つのアナフォリックゼロ代名詞システムのための追加のトレーニング材料として、拡張データを使用する。
実験の結果,データ拡張により2つのシステムの性能が向上し,最新結果を上回った。
関連論文リスト
- Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach [0.0]
大きな言語モデル(LLM)は、しばしば代名詞の用法においてバイアスを持続させ、キーア個人を誤って表現したり排除したりする。
本稿では、LLM出力における偏り付き代名詞の使用の特定の問題、特に伝統的性別付き代名詞の不適切な使用について論じる。
本稿では,これらのバイアスを軽減するための協調的エージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-12T09:14:16Z) - Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns [5.5514102920271196]
ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。
最近の評価では、英語のNLPシステムはジェンダーニュートラル代名詞を正しく処理できないことが示されている。
本稿では,オランダ語の男女中性代名詞に対する基準分解システムの性能について検討する。
論文 参考訳(メタデータ) (2024-04-30T18:31:19Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Zero-pronoun Data Augmentation for Japanese-to-English Translation [15.716533830931764]
本研究では,局所文脈とゼロ代名詞の相関関係を学習するために,翻訳モデルに付加的な訓練信号を提供するデータ拡張手法を提案する。
提案手法は,会話領域における機械翻訳実験によるゼロ代名詞翻訳の精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-01T09:17:59Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Repairing Pronouns in Translation with BERT-Based Post-Editing [7.6344611819427035]
いくつかの領域では、代名詞選択がNMTシステムのエラーの半数以上を占めることが示される。
次に、ソース側文のチャンクを使用して、代名詞予測タスクでBERTを微調整するソリューションを検討します。
論文 参考訳(メタデータ) (2021-03-23T21:01:03Z) - Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation [4.775445987662862]
文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語に翻訳する際に誤りを犯す可能性がある。
高品質な性別ラベルを自動生成する新しい言語間ピボット手法を提案する。
論文 参考訳(メタデータ) (2020-06-16T02:41:46Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。