論文の概要: Comparing Feature-Engineering and Feature-Learning Approaches for
Multilingual Translationese Classification
- arxiv url: http://arxiv.org/abs/2109.07604v1
- Date: Wed, 15 Sep 2021 22:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:04:07.781110
- Title: Comparing Feature-Engineering and Feature-Learning Approaches for
Multilingual Translationese Classification
- Title(参考訳): 多言語翻訳分類における特徴工学と特徴学習の比較
- Authors: Daria Pylypenko, Kwabena Amponsah-Kaakyire, Koel Dutta Chowdhury,
Josef van Genabith, Cristina Espa\~na-Bonet
- Abstract要約: 従来のフィーチャーエンジニアリングベースのアプローチとフィーチャーラーニングベースのアプローチを比較します。
我々は,手作りの特徴がニューラルネットワークの予測のばらつきをいかにうまく説明するかを考察する。
- 参考スコア(独自算出の注目度): 11.364204162881482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional hand-crafted linguistically-informed features have often been
used for distinguishing between translated and original non-translated texts.
By contrast, to date, neural architectures without manual feature engineering
have been less explored for this task. In this work, we (i) compare the
traditional feature-engineering-based approach to the feature-learning-based
one and (ii) analyse the neural architectures in order to investigate how well
the hand-crafted features explain the variance in the neural models'
predictions. We use pre-trained neural word embeddings, as well as several
end-to-end neural architectures in both monolingual and multilingual settings
and compare them to feature-engineering-based SVM classifiers. We show that (i)
neural architectures outperform other approaches by more than 20 accuracy
points, with the BERT-based model performing the best in both the monolingual
and multilingual settings; (ii) while many individual hand-crafted
translationese features correlate with neural model predictions, feature
importance analysis shows that the most important features for neural and
classical architectures differ; and (iii) our multilingual experiments provide
empirical evidence for translationese universals across languages.
- Abstract(参考訳): 伝統的な手作りの言語に変形した特徴は、翻訳されたテキストとオリジナルの翻訳されていないテキストを区別するためにしばしば用いられてきた。
対照的に、これまで手動のフィーチャーエンジニアリングのないニューラルアーキテクチャは、このタスクのためにあまり研究されていない。
この作品では、
(i)従来の特徴工学的アプローチと特徴学習的アプローチを比較して
(II)手作りの特徴がニューラルモデルの予測のばらつきをいかにうまく説明するかを調べるために、ニューラルアーキテクチャを解析する。
トレーニング済みのニューラルワード埋め込みと、モノリンガルと多言語の両方でエンドツーエンドのニューラルアーキテクチャを使用して、機能エンジニアリングベースのSVM分類器と比較する。
私たちはそれを示します
(i) 神経アーキテクチャは他のアプローチを20以上の精度で上回り、bertベースのモデルは単言語と多言語の両方で最高の性能を発揮する。
(ii) 個々の手作り翻訳機能は, ニューラルモデル予測と相関するが, 特徴量分析により, ニューラルアーキテクチャや古典アーキテクチャにおいて最も重要な特徴が異なることが分かる。
(iii)多言語実験は,言語間の翻訳普遍性の実証的証拠を提供する。
関連論文リスト
- Retrieving Examples from Memory for Retrieval Augmented Neural Machine Translation: A Systematic Comparison [0.0]
いくつかの翻訳アーキテクチャにおける様々な検索手法の効果について検討する。
本実験により, 検索手法の選択は, アーキテクチャ間の差異を伴って, 翻訳スコアに影響を及ぼすことが示された。
また、サンプルの数と多様性を増大させる効果についても論じる。
論文 参考訳(メタデータ) (2024-04-03T16:13:29Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploiting Language Model for Efficient Linguistic Steganalysis: An
Empirical Study [23.311007481830647]
言語ステガナリシスを効果的に行うための2つの方法を提案する。
1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。
論文 参考訳(メタデータ) (2021-07-26T12:37:18Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。