論文の概要: A Cognitive Regularizer for Language Modeling
- arxiv url: http://arxiv.org/abs/2105.07144v1
- Date: Sat, 15 May 2021 05:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 11:11:44.148188
- Title: A Cognitive Regularizer for Language Modeling
- Title(参考訳): 言語モデリングのための認知正規化器
- Authors: Jason Wei, Clara Meister, and Ryan Cotterell
- Abstract要約: UIDを正規化として符号化することで、言語モデルをトレーニングするための標準MLEの目的を拡大する。
UID正規化の使用は言語モデルの難易度を一貫して改善する。
また、UID正規化言語モデルはエントロピーが高く、より長く、より語彙的に多様なテキストを生成する。
- 参考スコア(独自算出の注目度): 36.256053903862956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The uniform information density (UID) hypothesis, which posits that speakers
prefer utterances that distribute information uniformly across the signal, has
gained substantial traction in psycholinguistics as an explanation for certain
syntactic, morphological, and prosodic choices. Could we operationalize uniform
information density as an inductive bias for statistical language modeling? In
this paper, we augment the canonical MLE objective for training language models
by encoding UID as regularization. In experiments on ten languages spanning
five language families, we find that using UID regularization consistently
improves perplexity in language models, having a larger effect when training
data is limited. Moreover, via analysis of generated sequences, we find that
UID-regularized language models are higher-entropy and produce text that is
longer and more lexically diverse. Our results not only suggest that UID is a
reasonable inductive bias for language modeling, but also provide an
alternative validation of the UID hypothesis using modern-day NLP tools.
- Abstract(参考訳): 均一情報密度(UID)仮説は、話者が信号全体にわたって情報を均一に分配する発話を好むことを示唆しており、特定の構文的、形態的、韻律的選択の説明として、精神言語学においてかなりの注目を集めている。
統計的言語モデルにおける帰納的バイアスとして一様情報密度を操作可能か?
本稿では,UIDを正規化として符号化することで,言語モデルの訓練のための標準的MLEの目的を拡大する。
5つの言語ファミリーにまたがる10の言語に関する実験では、uid正規化の使用が言語モデルのパープレキシティを一貫して改善し、トレーニングデータに制限がある場合に効果が大きいことが分かりました。
さらに, 生成シーケンスの解析により, UID正規化言語モデルの方がエントロピーが高く, より長く, より語彙的に多様なテキストを生成することがわかった。
この結果から, UID は言語モデリングにおいて合理的な帰納バイアスであるだけでなく, 現代の NLP ツールを用いた UID 仮説の代替的妥当性も示唆された。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - Revisiting the Uniform Information Density Hypothesis [44.277066511088634]
読み出し時間と受理可能性データを用いて,一様情報密度(UID)仮説について検討する。
受理性判定では,情報密度の非均一性が受理性低下の予測であることを示す。
論文 参考訳(メタデータ) (2021-09-23T20:41:47Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。