論文の概要: On Language Models for Creoles
- arxiv url: http://arxiv.org/abs/2109.06074v1
- Date: Mon, 13 Sep 2021 15:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:42:42.049049
- Title: On Language Models for Creoles
- Title(参考訳): クレオールの言語モデルについて
- Authors: Heather Lent, Emanuele Bugliarello, Miryam de Lhoneux, Chen Qiu and
Anders S{\o}gaard
- Abstract要約: ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
- 参考スコア(独自算出の注目度): 8.577162764242845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creole languages such as Nigerian Pidgin English and Haitian Creole are
under-resourced and largely ignored in the NLP literature. Creoles typically
result from the fusion of a foreign language with multiple local languages, and
what grammatical and lexical features are transferred to the creole is a
complex process. While creoles are generally stable, the prominence of some
features may be much stronger with certain demographics or in some linguistic
situations. This paper makes several contributions: We collect existing corpora
and release models for Haitian Creole, Nigerian Pidgin English, and Singaporean
Colloquial English. We evaluate these models on intrinsic and extrinsic tasks.
Motivated by the above literature, we compare standard language models with
distributionally robust ones and find that, somewhat surprisingly, the standard
language models are superior to the distributionally robust ones. We
investigate whether this is an effect of over-parameterization or relative
distributional stability, and find that the difference persists in the absence
of over-parameterization, and that drift is limited, confirming the relative
stability of creole languages.
- Abstract(参考訳): ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
クレオール語は通常、外国語と複数の地方言語が融合し、文法的特徴や語彙的特徴がクレオール語に移される過程は複雑なプロセスである。
クレオールは一般的に安定しているが、一部の特徴は特定の人口層や言語状況においてはるかに強い可能性がある。
本稿では,ハイチ・クレオール,ナイジェリア・ピジン・イングリッシュ,シンガポール・コロキール・イングリッシュの既存のコーパスとリリースモデルを収集する。
我々はこれらのモデルを内在的タスクと外在的タスクで評価する。
上記の文献に動機づけられて,標準言語モデルと分布的ロバスト言語モデルを比較し,やや意外なことに,標準言語モデルの方が分布的ロバスト言語モデルよりも優れていることを見出した。
過パラメータ化の影響か, 相対分布安定性かを調査し, 過パラメータ化がなければ差は持続し, ドリフトは限定され, クレオール言語の相対安定性が確認された。
関連論文リスト
- CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset [7.940548890754674]
JamPatoisNLIは、クレオール言語であるジャマイカのパトワで、自然言語推論のための最初のデータセットを提供する。
最もスポークな低リソース言語の多くはクレオールである。
実験の結果,JamPatoisNLIは非関連言語よりも,比較的優れた学習結果が得られた。
論文 参考訳(メタデータ) (2022-12-07T03:07:02Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Ancestor-to-Creole Transfer is Not a Walk in the Park [9.926231893220061]
我々は大量のデータが手軽に利用できないクレオール言語のための言語モデルを学ぶことを目指している。
標準的な転送手法は、祖先の転送を容易にするものではないことが判明した。
驚くべきことに、他のクレオール以外の言語とは異なり、クレオールに対して非常に異なる2相パターンが出現する。
論文 参考訳(メタデータ) (2022-06-09T09:28:10Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。