論文の概要: Spelling convention sensitivity in neural language models
- arxiv url: http://arxiv.org/abs/2303.03457v1
- Date: Mon, 6 Mar 2023 19:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:31:13.213047
- Title: Spelling convention sensitivity in neural language models
- Title(参考訳): ニューラルネットワークモデルにおけるスペリング規則の感度
- Authors: Elizabeth Nielsen, Christo Kirov, Brian Roark
- Abstract要約: 様々な英語テキストの非常に大きなコレクションに基づいて訓練された大きなニューラル言語モデルが、英語とアメリカの綴り規則の長距離依存性を学習するかどうかを検討する。
- 参考スコア(独自算出の注目度): 7.975857891024093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine whether large neural language models, trained on very large
collections of varied English text, learn the potentially long-distance
dependency of British versus American spelling conventions, i.e., whether
spelling is consistently one or the other within model-generated strings. In
contrast to long-distance dependencies in non-surface underlying structure
(e.g., syntax), spelling consistency is easier to measure both in LMs and the
text corpora used to train them, which can provide additional insight into
certain observed model behaviors. Using a set of probe words unique to either
British or American English, we first establish that training corpora exhibit
substantial (though not total) consistency. A large T5 language model does
appear to internalize this consistency, though only with respect to observed
lexical items (not nonce words with British/American spelling patterns). We
further experiment with correcting for biases in the training data by
fine-tuning T5 on synthetic data that has been debiased, and find that
finetuned T5 remains only somewhat sensitive to spelling consistency. Further
experiments show GPT2 to be similarly limited.
- Abstract(参考訳): 様々な英語テキストの膨大なコレクションに基づいて訓練された大規模ニューラルネットワークモデルが、英語対アメリカの綴り規約の潜在的長距離依存性、すなわちモデル生成文字列における綴りの一貫性について学習するかどうかについて検討する。
非基底構造(例えば構文)における長距離依存とは対照的に、スペルの一貫性はLMとそれらのトレーニングに使用されるテキストコーパスの両方で測定しやすく、観測されたモデルの振る舞いに関するさらなる洞察を与えることができる。
英国英語またはアメリカ英語に固有のプローブ単語のセットを使用して、トレーニングコーパスが実質的(完全ではないが)一貫性を示すことを最初に確立した。
大きなt5言語モデルは、この一貫性を内部化しているように見えるが、観察された語彙項目(英米の綴りパターンを持つ単語ではない)のみについてである。
さらに,変形した合成データに対してt5を微調整することで,トレーニングデータのバイアスの補正を行い,微調整されたt5は綴りの一貫性に多少敏感なままであることを確認した。
さらなる実験では、GPT2も同様に制限されている。
関連論文リスト
- Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - T5 meets Tybalt: Author Attribution in Early Modern English Drama Using
Large Language Models [4.2243058640527575]
大規模言語モデルは、多くのNLPドメインにおいてブレークスルーの可能性を示している。
現代英語ドラマにおけるテクスチャロメトリー、特に著者識別について検討する。
LLMは驚くほど短い文の著者を正確に予測できるが、特定の著者に自信を持ってテキストを誤帰させる傾向がある。
論文 参考訳(メタデータ) (2023-10-27T20:04:57Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5
for Machine Translation [9.736284584478032]
特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。
モデル予測の駆動におけるソーステキストの重要性を評価する一方で,ByT5内の単語レベルのパターンを強調した。
我々は、バイトモデルの効率トレードオフを評価し、翻訳品質を高めるために、非時間クリティカルなシナリオでの使用法を提案する。
論文 参考訳(メタデータ) (2023-02-28T00:50:19Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。