論文の概要: Training Neural Networks as Recognizers of Formal Languages
- arxiv url: http://arxiv.org/abs/2411.07107v1
- Date: Mon, 11 Nov 2024 16:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:57.122742
- Title: Training Neural Networks as Recognizers of Formal Languages
- Title(参考訳): 形式言語の認識者としてのニューラルネットワークの訓練
- Authors: Alexandra Butoi, Ghazal Khalighinejad, Anej Svete, Josef Valvoda, Ryan Cotterell, Brian DuSell,
- Abstract要約: 形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
- 参考スコア(独自算出の注目度): 87.06906286950438
- License:
- Abstract: Characterizing the computational power of neural network architectures in terms of formal language theory remains a crucial line of research, as it describes lower and upper bounds on the reasoning capabilities of modern AI. However, when empirically testing these bounds, existing work often leaves a discrepancy between experiments and the formal claims they are meant to support. The problem is that formal language theory pertains specifically to recognizers: machines that receive a string as input and classify whether it belongs to a language. On the other hand, it is common to instead use proxy tasks that are similar in only an informal sense, such as language modeling or sequence-to-sequence transduction. We correct this mismatch by training and evaluating neural networks directly as binary classifiers of strings, using a general method that can be applied to a wide variety of languages. As part of this, we extend an algorithm recently proposed by Sn{\ae}bjarnarson et al. (2024) to do length-controlled sampling of strings from regular languages, with much better asymptotic time complexity than previous methods. We provide results on a variety of languages across the Chomsky hierarchy for three neural architectures: a simple RNN, an LSTM, and a causally-masked transformer. We find that the RNN and LSTM often outperform the transformer, and that auxiliary training objectives such as language modeling can help, although no single objective uniformly improves performance across languages and architectures. Our contributions will facilitate theoretically sound empirical testing of language recognition claims in future work. We have released our datasets as a benchmark called FLaRe (Formal Language Recognition), along with our code.
- Abstract(参考訳): フォーマルな言語理論の観点からニューラルネットワークアーキテクチャの計算力を特徴づけることは、現代のAIの推論能力の下位と上位の境界を記述するため、依然として重要な研究のラインである。
しかしながら、これらの境界を経験的にテストする場合、既存の作業は、実験と彼らがサポートしようとする公式な主張の相違をしばしば残します。
問題は、形式言語理論が特に認識者(入力として文字列を受け取り、それが言語に属するかどうかを分類する機械)に関係していることである。
一方で、言語モデリングやシーケンシャル・ツー・シーケンス・トランスダクションといった、非公式な意味でのみ類似したプロキシタスクを使うのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し、評価することで、このミスマッチを補正する。
これの一環として、最近Sn{\ae}bjarnarson et al (2024) によって提案されたアルゴリズムを拡張し、通常の言語から文字列を長さ制御したサンプリングを行う。
我々は、単純なRNN、LSTM、因果行列変換器の3つのニューラルネットワークに対して、チョムスキー階層の様々な言語について結果を提供する。
RNNとLSTMはトランスフォーマーよりも優れており、言語モデリングのような補助的なトレーニング目標が役に立つが、言語やアーキテクチャをまたいだパフォーマンスを均一に向上する目的は存在しない。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
コードとともに、FLaRe(Formal Language Recognition)と呼ばれるベンチマークとしてデータセットをリリースしました。
関連論文リスト
- What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Nondeterministic Stacks in Neural Networks [0.456877715768796]
我々は、非決定論的プッシュダウンオートマトンを効率的にシミュレートする微分可能なデータ構造を開発する。
これにより、任意の文脈自由言語に対する形式的認識能力が向上することを示す。
また,非決定論的スタックを付加したRNNでは,驚くほど強力な動作が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-25T16:00:40Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - SyGNS: A Systematic Generalization Testbed Based on Natural Language
Semantics [39.845425535943534]
自然言語セマンティックス(SyGNS)に基づく体系的一般化テストベッドを提案する。
ニューラルネットワークが、量化子や否定といった論理式の新しい組み合わせを含む文を体系的に解析できるかどうかを検証する。
実験により、Transformer と GRU モデルは、与えられたトレーニングインスタンスの形式に類似しているが、他のモデルには似ていない量化器、否定器、修飾器の組み合わせに一般化できることが示された。
論文 参考訳(メタデータ) (2021-06-02T11:24:41Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z) - On the Linguistic Capacity of Real-Time Counter Automata [1.8072051868187933]
リアルタイムカウンターマシンの能力を形式文法として研究する。
対向言語は補数、和、交叉、その他多くの共通集合演算の下で閉じていることを示す。
この研究は、リカレントニューラルネットワークを理解することに興味のある形式言語理論に一般的な貢献をする。
論文 参考訳(メタデータ) (2020-04-15T03:37:47Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。