論文の概要: Ancestor-to-Creole Transfer is Not a Walk in the Park
- arxiv url: http://arxiv.org/abs/2206.04371v1
- Date: Thu, 9 Jun 2022 09:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:06:42.344637
- Title: Ancestor-to-Creole Transfer is Not a Walk in the Park
- Title(参考訳): アンセスタからクレオールへの移動は公園の散歩ではない
- Authors: Heather Lent, Emanuele Bugliarello, Anders S{\o}gaard
- Abstract要約: 我々は大量のデータが手軽に利用できないクレオール言語のための言語モデルを学ぶことを目指している。
標準的な転送手法は、祖先の転送を容易にするものではないことが判明した。
驚くべきことに、他のクレオール以外の言語とは異なり、クレオールに対して非常に異なる2相パターンが出現する。
- 参考スコア(独自算出の注目度): 9.926231893220061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to learn language models for Creole languages for which large volumes
of data are not readily available, and therefore explore the potential transfer
from ancestor languages (the 'Ancestry Transfer Hypothesis'). We find that
standard transfer methods do not facilitate ancestry transfer. Surprisingly,
different from other non-Creole languages, a very distinct two-phase pattern
emerges for Creoles: As our training losses plateau, and language models begin
to overfit on their source languages, perplexity on the Creoles drop. We
explore if this compression phase can lead to practically useful language
models (the 'Ancestry Bottleneck Hypothesis'), but also falsify this. Moreover,
we show that Creoles even exhibit this two-phase pattern even when training on
random, unrelated languages. Thus Creoles seem to be typological outliers and
we speculate whether there is a link between the two observations.
- Abstract(参考訳): 我々は,大量のデータが容易に利用できないクレオール言語の言語モデルを学び,祖先言語からの潜在的移行を探究することを目的とする(「祖先伝達仮説」)。
標準的な転送方式は、祖先の転送を容易にするものではない。
驚くべきことに、他の非クレオール言語とは異なる2相のパターンがクレオールに現れ、トレーニング損失が高まり、言語モデルがソース言語に過剰適合し始めると、クレオールのパープレキシティが低下します。
この圧縮フェーズが実際に有用な言語モデル("Ancestry Bottleneck hypothesis")に繋がるかどうかを考察するが、これも偽造する。
さらに,無関係な言語を訓練しても,クレオールがこの2相パターンを示すことを示す。
したがって、クレオール類は類型的外れであり、この2つの観測の間に関係があるかどうかを推測する。
関連論文リスト
- Molyé: A Corpus-based Approach to Language Contact in Colonial France [10.054303678856536]
Moly'e corpus は、ヨーロッパでの言語変化のステレオタイプ表現と、早くから証明されたフランス語ベースのクレオール言語を組み合わせたものである。
ヨーロッパにおける接触状況とクレオフォン(旧)植民地の間の連続性に関する将来の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T16:09:40Z) - Measuring Cross-lingual Transfer in Bytes [9.011910726620538]
多様な言語からのモデルが、言語横断的な設定で対象言語と類似して動作することを示す。
また,この移行が言語汚染や言語近接と関係がないという証拠も発見された。
我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。
論文 参考訳(メタデータ) (2024-04-12T01:44:46Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset [7.940548890754674]
JamPatoisNLIは、クレオール言語であるジャマイカのパトワで、自然言語推論のための最初のデータセットを提供する。
最もスポークな低リソース言語の多くはクレオールである。
実験の結果,JamPatoisNLIは非関連言語よりも,比較的優れた学習結果が得られた。
論文 参考訳(メタデータ) (2022-12-07T03:07:02Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。