論文の概要: What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages
- arxiv url: http://arxiv.org/abs/2406.04289v1
- Date: Thu, 6 Jun 2024 17:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:40:27.602088
- Title: What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages
- Title(参考訳): 言語モデルにとって容易な言語とは何か?確率論的正規言語学習の視点から
- Authors: Nadav Borenstein, Anej Svete, Robin Chan, Josef Valvoda, Franz Nowak, Isabelle Augenstein, Eleanor Chodroff, Ryan Cotterell,
- Abstract要約: 大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
- 参考スコア(独自算出の注目度): 78.1866280652834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What can large language models learn? By definition, language models (LM) are distributions over strings. Therefore, an intuitive way of addressing the above question is to formalize it as a matter of learnability of classes of distributions over strings. While prior work in this direction focused on assessing the theoretical limits, in contrast, we seek to understand the empirical learnability. Unlike prior empirical work, we evaluate neural LMs on their home turf-learning probabilistic languages-rather than as classifiers of formal languages. In particular, we investigate the learnability of regular LMs (RLMs) by RNN and Transformer LMs. We empirically test the learnability of RLMs as a function of various complexity parameters of the RLM and the hidden state size of the neural LM. We find that the RLM rank, which corresponds to the size of linear space spanned by the logits of its conditional distributions, and the expected length of sampled strings are strong and significant predictors of learnability for both RNNs and Transformers. Several other predictors also reach significance, but with differing patterns between RNNs and Transformers.
- Abstract(参考訳): 大規模言語モデルは何を学ぶことができるのか?
定義上、言語モデル(LM)は文字列上の分布である。
したがって、上記の問題に直感的に対処する方法は、文字列上の分布のクラスを学習可能な問題として定式化することである。
この方向の先行研究は、理論的な限界を評価することに重点を置いているが、対照的に、経験的学習可能性を理解しようと試みている。
従来の経験的作業とは違って、フォーマルな言語の分類子としてではなく、自宅の芝刈り学習における確率的言語上でのニューラルLMを評価する。
特に、RNNとTransformer LMによる通常のLM(RLM)の学習可能性について検討する。
本研究では,RLMの様々な複雑性パラメータの関数として,RLMの学習可能性とニューラルLMの隠れ状態サイズを実証的に検証する。
その結果, RNN と Transformer の双方において, RLM のランクは条件分布のロジットに代表される線形空間の大きさに対応し, サンプル文字列の長さは強く, 有意な学習可能性の予測因子であることが判明した。
他にもいくつかの予測器が重要になるが、RNNとTransformerのパターンが異なる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Recurrent Neural Language Models as Probabilistic Finite-state Automata [66.23172872811594]
RNN LMが表現できる確率分布のクラスについて検討する。
単純なRNNは確率的有限状態オートマトンの部分クラスと同値であることを示す。
これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示す。
論文 参考訳(メタデータ) (2023-10-08T13:36:05Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文 参考訳(メタデータ) (2023-09-02T08:17:29Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。