論文の概要: Data Augmentation for Machine Translation via Dependency Subtree
Swapping
- arxiv url: http://arxiv.org/abs/2307.07025v1
- Date: Thu, 13 Jul 2023 19:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:39:02.402011
- Title: Data Augmentation for Machine Translation via Dependency Subtree
Swapping
- Title(参考訳): 依存サブツリースワッピングによる機械翻訳のためのデータ拡張
- Authors: Attila Nagy, Dorina Petra Lakatos, Botond Barta, Patrick Nanys, Judit
\'Acs
- Abstract要約: 依存関係のサブツリースワップによるデータ拡張のための汎用フレームワークを提案する。
我々は、ソースとターゲット文の依存関係解析木から対応するサブツリーを抽出し、ビセントスに置換して拡張サンプルを作成する。
我々は,IWSLTテキスト翻訳データセットとHunglish2コーパスを用いて,両方向の4つの言語対に関する資源制約実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a generic framework for data augmentation via dependency subtree
swapping that is applicable to machine translation. We extract corresponding
subtrees from the dependency parse trees of the source and target sentences and
swap these across bisentences to create augmented samples. We perform thorough
filtering based on graphbased similarities of the dependency trees and
additional heuristics to ensure that extracted subtrees correspond to the same
meaning. We conduct resource-constrained experiments on 4 language pairs in
both directions using the IWSLT text translation datasets and the Hunglish2
corpus. The results demonstrate consistent improvements in BLEU score over our
baseline models in 3 out of 4 language pairs. Our code is available on GitHub.
- Abstract(参考訳): 本稿では,マシン翻訳に適用可能な依存サブツリースワップによるデータ拡張のための汎用フレームワークを提案する。
ソースとターゲット文の依存関係解析木から対応するサブツリーを抽出し、ビセントスに置換して拡張サンプルを作成する。
グラフに基づく依存木の類似性に基づく徹底的なフィルタリングを行い、抽出したサブツリーが同じ意味に一致することを保証する。
IWSLTテキスト翻訳データセットとHunglish2コーパスを用いて,両方向の4つの言語対に関する資源制約実験を行った。
その結果、4つの言語ペアのうち3つでベースラインモデルよりもBLEUスコアが一貫した改善を示した。
コードはgithubから入手できます。
関連論文リスト
- TreeSwap: Data Augmentation for Machine Translation via Dependency
Subtree Swapping [0.0]
そこで本研究では,対象と対象をバイセントで置き換えることで,新たな文を生成する新しい拡張手法を提案する。
TreeSwapは、リソース制約のあるデータセット上で、4つの言語ペアのベースラインモデルに対して、両方の方向に一貫した改善を実現している。
ドメイン固有のコーパスについても検討するが,本手法は法,医療,ITデータに大きな改善をもたらすものではない。
論文 参考訳(メタデータ) (2023-11-04T09:27:40Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - Coordinate Constructions in English Enhanced Universal Dependencies:
Analysis and Computational Modeling [1.9950682531209154]
拡張ユニバーサル依存(UD)における座標構成の表現に対処する。
手動で編集した構文グラフの大規模なデータセットを作成する。
元のデータにおけるいくつかの系統的誤りを識別し、結合の伝播も提案する。
論文 参考訳(メタデータ) (2021-03-16T10:24:27Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Cross-Lingual Adaptation Using Universal Dependencies [1.027974860479791]
複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
論文 参考訳(メタデータ) (2020-03-24T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。