論文の概要: TreeSwap: Data Augmentation for Machine Translation via Dependency
Subtree Swapping
- arxiv url: http://arxiv.org/abs/2311.02355v1
- Date: Sat, 4 Nov 2023 09:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:10:26.788308
- Title: TreeSwap: Data Augmentation for Machine Translation via Dependency
Subtree Swapping
- Title(参考訳): TreeSwap: 依存サブツリースワッピングによる機械翻訳のためのデータ拡張
- Authors: Attila Nagy, Dorina Lakatos, Botond Barta, Judit \'Acs
- Abstract要約: そこで本研究では,対象と対象をバイセントで置き換えることで,新たな文を生成する新しい拡張手法を提案する。
TreeSwapは、リソース制約のあるデータセット上で、4つの言語ペアのベースラインモデルに対して、両方の方向に一貫した改善を実現している。
ドメイン固有のコーパスについても検討するが,本手法は法,医療,ITデータに大きな改善をもたらすものではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation methods for neural machine translation are particularly
useful when limited amount of training data is available, which is often the
case when dealing with low-resource languages. We introduce a novel
augmentation method, which generates new sentences by swapping objects and
subjects across bisentences. This is performed simultaneously based on the
dependency parse trees of the source and target sentences. We name this method
TreeSwap. Our results show that TreeSwap achieves consistent improvements over
baseline models in 4 language pairs in both directions on resource-constrained
datasets. We also explore domain-specific corpora, but find that our method
does not make significant improvements on law, medical and IT data. We report
the scores of similar augmentation methods and find that TreeSwap performs
comparably. We also analyze the generated sentences qualitatively and find that
the augmentation produces a correct translation in most cases. Our code is
available on Github.
- Abstract(参考訳): ニューラルネットワーク翻訳のためのデータ拡張手法は、限られた量のトレーニングデータが利用可能である場合、特に有用である。
本稿では,物体と対象をバイセントで置き換えることで,新たな文を生成する手法を提案する。
これはソースとターゲット文の依存関係解析木に基づいて同時に実行される。
このメソッドをTreeSwapと名付けます。
この結果から,TreeSwapはリソース制約付きデータセット上で,4つの言語ペアのベースラインモデルに対して一貫した改善を実現していることがわかった。
ドメイン固有のコーパスについても検討するが,本手法は法,医療,ITデータに大きな改善をもたらすものではない。
同様の拡張手法のスコアを報告し,treeswapが両立することを確認した。
また、生成した文を定性的に分析し、ほとんどのケースで増補が正しい翻訳を生み出すことを見出した。
コードはgithubから入手できます。
関連論文リスト
- Data Augmentation for Code Translation with Comparable Corpora and Multiple References [21.754147577489764]
我々は、自然言語ドキュメントから生成されたプログラムを含む、比較可能なコーパスの複数のタイプを構築し、分析する。
単一の参照変換に対する過度な適合を低減するため、利用可能な並列データに対する追加の翻訳参照を自動生成する。
実験の結果,Java,Python,C++間の変換において,平均7.5%の計算精度でコードT5が大幅に改善された。
論文 参考訳(メタデータ) (2023-11-01T06:01:22Z) - Data Augmentation for Machine Translation via Dependency Subtree
Swapping [0.0]
依存関係のサブツリースワップによるデータ拡張のための汎用フレームワークを提案する。
我々は、ソースとターゲット文の依存関係解析木から対応するサブツリーを抽出し、ビセントスに置換して拡張サンプルを作成する。
我々は,IWSLTテキスト翻訳データセットとHunglish2コーパスを用いて,両方向の4つの言語対に関する資源制約実験を行った。
論文 参考訳(メタデータ) (2023-07-13T19:00:26Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。
名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文 参考訳(メタデータ) (2022-08-15T01:24:55Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。