論文の概要: Learning synchronous context-free grammars with multiple specialised
non-terminals for hierarchical phrase-based translation
- arxiv url: http://arxiv.org/abs/2004.01422v1
- Date: Fri, 3 Apr 2020 08:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 03:53:27.443707
- Title: Learning synchronous context-free grammars with multiple specialised
non-terminals for hierarchical phrase-based translation
- Title(参考訳): 階層的フレーズに基づく翻訳のための複数の特化非終端を持つ同期文脈自由文法の学習
- Authors: Felipe S\'anchez-Mart\'inez, Juan Antonio P\'erez-Ortiz, Rafael C.
Carrasco
- Abstract要約: 本稿では,初期非終端数の少ない同期文脈自由文法を学習する手法を提案する。
実験により、結果の小さな非終端集合が文脈情報を正しく捉えていることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation models based on hierarchical phrase-based statistical machine
translation (HSMT) have shown better performances than the non-hierarchical
phrase-based counterparts for some language pairs. The standard approach to
HSMT learns and apply a synchronous context-free grammar with a single
non-terminal. The hypothesis behind the grammar refinement algorithm presented
in this work is that this single non-terminal is overloaded, and insufficiently
discriminative, and therefore, an adequate split of it into more specialised
symbols could lead to improved models. This paper presents a method to learn
synchronous context-free grammars with a huge number of initial non-terminals,
which are then grouped via a clustering algorithm. Our experiments show that
the resulting smaller set of non-terminals correctly capture the contextual
information that makes it possible to statistically significantly improve the
BLEU score of the standard HSMT approach.
- Abstract(参考訳): 階層的フレーズベース統計機械翻訳(HSMT)に基づく翻訳モデルは、いくつかの言語対に対する非階層的フレーズベース翻訳よりも優れた性能を示した。
HSMTの標準的なアプローチは、単一の非終端を持つ同期文脈自由文法を学習し、適用する。
この研究で示された文法精製アルゴリズムの背後にある仮説は、この単一の非終端は過負荷であり、十分に識別できないため、より専門化されたシンボルに適切に分割することで、改善されたモデルをもたらす可能性があるというものである。
本稿では,クラスタリングアルゴリズムによってグループ化される大量の初期非終端を持つ同期文脈自由文法を学習する手法を提案する。
実験の結果,結果の少ない非終端集合が文脈情報を正しく捕捉し,標準HSMT手法のBLEUスコアを統計的に向上させることができることがわかった。
関連論文リスト
- Synergizing Unsupervised and Supervised Learning: A Hybrid Approach for Accurate Natural Language Task Modeling [0.0]
本稿では,NLPタスクモデリングの精度を向上させるために,教師なし学習と教師なし学習を相乗化する新しいハイブリッド手法を提案する。
提案手法は,未ラベルコーパスから表現を学習する教師なしモジュールと,これらの表現を活用してタスク固有モデルを強化する教師付きモジュールを統合する。
手法の相乗化により、我々のハイブリッドアプローチはベンチマークデータセット上でSOTAの結果を達成し、よりデータ効率が高くロバストなNLPシステムを実現する。
論文 参考訳(メタデータ) (2024-06-03T08:31:35Z) - Syntax-Aware Complex-Valued Neural Machine Translation [14.772317918560548]
本稿では,構文情報を複合値デコーダアーキテクチャに組み込む手法を提案する。
提案モデルは,単語レベルと構文レベルのアテンションスコアを,アテンション機構を用いて,ソース側からターゲット側へ共同で学習する。
実験により,提案手法は2つのデータセット上でのBLEUスコアを大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-07-17T15:58:05Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文 参考訳(メタデータ) (2022-10-20T19:54:11Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Paraphrase Generation as Unsupervised Machine Translation [30.99150547499427]
タスクを教師なし機械翻訳(UMT)として扱うことで、新しいパラフレーズ生成パラダイムを提案する。
提案したパラダイムは,まず大きなラベルのないコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。
すると、これらのUTTモデルによって生成されたパラフレーズペアに基づいて、統一的なサロゲートモデルが最後のSeq2Seqモデルとして機能してパラフレーズを生成するように訓練することができる。
論文 参考訳(メタデータ) (2021-09-07T09:08:58Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。