論文の概要: Grounded Compositional Outputs for Adaptive Language Modeling
- arxiv url: http://arxiv.org/abs/2009.11523v2
- Date: Mon, 5 Oct 2020 18:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:49:46.876813
- Title: Grounded Compositional Outputs for Adaptive Language Modeling
- Title(参考訳): 適応型言語モデルのための接地合成出力
- Authors: Nikolaos Pappas, Phoebe Mulcaire, Noah A. Smith
- Abstract要約: 言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
- 参考スコア(独自算出の注目度): 59.02706635250856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have emerged as a central component across NLP, and a great
deal of progress depends on the ability to cheaply adapt them (e.g., through
finetuning) to new domains and tasks. A language model's vocabulary$-$typically
selected before training and permanently fixed later$-$affects its size and is
part of what makes it resistant to such adaptation. Prior work has used
compositional input embeddings based on surface forms to ameliorate this issue.
In this work, we go one step beyond and propose a fully compositional output
embedding layer for language models, which is further grounded in information
from a structured lexicon (WordNet), namely semantically related words and
free-text definitions. To our knowledge, the result is the first word-level
language model with a size that does not depend on the training vocabulary. We
evaluate the model on conventional language modeling as well as challenging
cross-domain settings with an open vocabulary, finding that it matches or
outperforms previous state-of-the-art output embedding methods and adaptation
approaches. Our analysis attributes the improvements to sample efficiency: our
model is more accurate for low-frequency words.
- Abstract(参考訳): 言語モデルは、NLP全体で中心的なコンポーネントとして現れており、多くの進歩は、新しいドメインやタスクに安価に(例えば、微調整を通じて)適応する能力に依存している。
言語モデルの語彙$-$はトレーニング前に選択され、永久に固定された$-$はそのサイズに影響し、そのような適応に抵抗する部分の一部である。
これまでの研究では、表面形状に基づく合成入力埋め込みを使用してこの問題を改善してきた。
本研究では,言語モデルのための完全な合成出力埋め込み層を提案し,意味的関連語や自由テキスト定義といった構造化辞書(WordNet)の情報にさらに基礎を置いている。
私たちの知識では、結果はトレーニング語彙に依存しないサイズで最初の単語レベルの言語モデルになります。
従来の言語モデリングのモデルとオープンな語彙でドメイン間設定に挑戦し、従来の最先端の出力埋め込み手法や適応手法に適合または優れていたことを確かめる。
我々の分析はサンプル効率の改善を特徴付けている:我々のモデルは低頻度の単語に対してより正確である。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。