論文の概要: Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction
- arxiv url: http://arxiv.org/abs/2106.12698v1
- Date: Thu, 24 Jun 2021 00:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:10:44.802488
- Title: Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction
- Title(参考訳): 教師なし文字レベル変換のためのニューラルネットワークと有限状態モデルの比較誤差解析
- Authors: Maria Ryskina, Eduard Hovy, Taylor Berg-Kirkpatrick, Matthew R.
Gormley
- Abstract要約: 2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
- 参考スコア(独自算出の注目度): 34.1177259741046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, character-level transduction problems have been solved with
finite-state models designed to encode structural and linguistic knowledge of
the underlying process, whereas recent approaches rely on the power and
flexibility of sequence-to-sequence models with attention. Focusing on the less
explored unsupervised learning scenario, we compare the two model classes side
by side and find that they tend to make different types of errors even when
achieving comparable performance. We analyze the distributions of different
error classes using two unsupervised tasks as testbeds: converting informally
romanized text into the native script of its language (for Russian, Arabic, and
Kannada) and translating between a pair of closely related languages (Serbian
and Bosnian). Finally, we investigate how combining finite-state and
sequence-to-sequence models at decoding time affects the output quantitatively
and qualitatively.
- Abstract(参考訳): 伝統的に、文字レベルのトランスダクション問題は、基礎となるプロセスの構造的および言語的知識を符号化するために設計された有限状態モデルで解決されている。
教師なしの学習シナリオに注目して,2つのモデルクラスを並べて比較した結果,同等のパフォーマンスを達成しても,異なるタイプのエラーが発生しやすいことがわかった。
2つの教師なしタスクを用いて異なるエラークラスの分布を分析し、非公式にローマ字化されたテキストを言語(ロシア語、アラビア語、カンナダ語)のネイティブスクリプトに変換し、近縁な2つの言語(セルビア語、ボスニア語)間で翻訳する。
最後に,復号時における有限状態モデルとシーケンス・ツー・シーケンスモデルの組み合わせが,出力の量的および質的影響について検討する。
関連論文リスト
- Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Detecting Fine-Grained Cross-Lingual Semantic Divergences without
Supervision by Learning to Rank [28.910206570036593]
この研究は、細粒度のセマンティックな違いの予測とアノテーションを改善する。
本稿では,多言語BERTモデルの学習方法として,様々な粒度の合成発散例をランク付けする手法を提案する。
ランク付けの学習は、強い文レベルの類似性モデルよりも正確に、きめ細かい文レベルの発散を検出するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T21:26:20Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。