論文の概要: Towards Zero-shot Language Modeling
- arxiv url: http://arxiv.org/abs/2108.03334v1
- Date: Fri, 6 Aug 2021 23:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:38:40.689919
- Title: Towards Zero-shot Language Modeling
- Title(参考訳): ゼロショット言語モデリングに向けて
- Authors: Edoardo Maria Ponti, Ivan Vuli\'c, Ryan Cotterell, Roi Reichart, and
Anna Korhonen
- Abstract要約: 人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
- 参考スコア(独自算出の注目度): 90.80124496312274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we construct a neural model that is inductively biased towards learning
human languages? Motivated by this question, we aim at constructing an
informative prior over neural weights, in order to adapt quickly to held-out
languages in the task of character-level language modeling. We infer this
distribution from a sample of typologically diverse training languages via
Laplace approximation. The use of such a prior outperforms baseline models with
an uninformative prior (so-called "fine-tuning") in both zero-shot and few-shot
settings. This shows that the prior is imbued with universal phonological
knowledge. Moreover, we harness additional language-specific side information
as distant supervision for held-out languages. Specifically, we condition
language models on features from typological databases, by concatenating them
to hidden states or generating weights with hyper-networks. These features
appear beneficial in the few-shot setting, but not in the zero-shot setting.
Since the paucity of digital texts affects the majority of the world's
languages, we hope that these findings will help broaden the scope of
applications for language technology.
- Abstract(参考訳): 人間の言語を学ぶために帰納的にバイアスがかかるニューラルモデルを構築することができるか?
この課題に動機づけられた我々は,文字レベル言語モデリングのタスクにおいて,保留言語に迅速に適応するために,神経重みよりも情報的優先を構築することを目的としている。
この分布をラプラス近似を用いてタイポロジー的に多様な訓練言語のサンプルから推測する。
このような先行モデルの使用は、ゼロショット設定と少数ショット設定の両方において、非インフォーマルな事前(いわゆる「微調整」)を持つベースラインモデルよりも優れている。
これは、前者は普遍的な音韻学の知識に埋もれていることを示している。
さらに,保留言語の遠隔監視として,追加的な言語固有のサイド情報を活用する。
具体的には,タイポロジーデータベースの特徴に言語モデルを適用し,それを隠れ状態に結合するか,ハイパーネットで重みを生成する。
これらの機能は、数ショット設定では有益に見えるが、ゼロショット設定では役に立たない。
デジタルテキストの汎性は世界の言語の大部分に影響を与えるため、これらの発見が言語技術の応用範囲を広げる助けになることを期待している。
関連論文リスト
- Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。