論文の概要: Benchmarking Neural Network Generalization for Grammar Induction
- arxiv url: http://arxiv.org/abs/2308.08253v2
- Date: Fri, 25 Aug 2023 13:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:41:49.909438
- Title: Benchmarking Neural Network Generalization for Grammar Induction
- Title(参考訳): 文法誘導のためのベンチマークニューラルネットワークの一般化
- Authors: Nur Lan, Emmanuel Chemla, Roni Katzir
- Abstract要約: 完全に指定された形式言語に基づくニューラルネットワークの一般化の尺度を提供する。
ベンチマークには、$anbn$, $anbncn$, $anbmcn+m$, Dyck-1, 2などの言語が含まれている。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How well do neural networks generalize? Even for grammar induction tasks,
where the target generalization is fully known, previous works have left the
question open, testing very limited ranges beyond the training set and using
different success criteria. We provide a measure of neural network
generalization based on fully specified formal languages. Given a model and a
formal grammar, the method assigns a generalization score representing how well
a model generalizes to unseen samples in inverse relation to the amount of data
it was trained on. The benchmark includes languages such as $a^nb^n$,
$a^nb^nc^n$, $a^nb^mc^{n+m}$, and Dyck-1 and 2. We evaluate selected
architectures using the benchmark and find that networks trained with a Minimum
Description Length objective (MDL) generalize better and using less data than
networks trained using standard loss functions. The benchmark is available at
https://github.com/taucompling/bliss.
- Abstract(参考訳): ニューラルネットワークはどの程度一般化するのか?
対象の一般化が完全に知られている文法的帰納的タスクであっても、以前の作業は質問をオープンにし、トレーニングセット以上の範囲をテストし、異なる成功基準を用いてテストしている。
完全な形式言語に基づくニューラルネットワークの一般化の尺度を提供する。
モデルと形式文法が与えられた場合、モデルがトレーニングしたデータ量と逆関係のサンプルに対して、モデルがいかにうまく一般化するかを示す一般化スコアを割り当てる。
ベンチマークには、$a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, dyck-1, 2などの言語が含まれている。
このベンチマークを用いて選択したアーキテクチャを評価し,MDL(Minimum Description Length Objective)を用いてトレーニングしたネットワークは,標準損失関数を用いてトレーニングしたネットワークよりも一般化し,少ないデータを使用する。
ベンチマークはhttps://github.com/taucompling/blissで利用可能である。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - Why Robust Generalization in Deep Learning is Difficult: Perspective of
Expressive Power [15.210336733607488]
その結果, ニューラルネットワークのサイズが指数関数的でない限り, 分割されたデータの二項分類問題に対して, 一定の頑健な一般化ギャップが存在することがわかった。
ネットワークサイズに対して$exp(mathcalO(k))$を改良し、低ロバストな一般化誤差を実現する。
論文 参考訳(メタデータ) (2022-05-27T09:53:04Z) - Understanding Robust Generalization in Learning Regular Languages [85.95124524975202]
我々は、リカレントニューラルネットワークを用いて正規言語を学習する文脈における堅牢な一般化について研究する。
この問題に対処するための構成戦略を提案する。
構成戦略がエンド・ツー・エンド戦略よりもはるかに優れていることを理論的に証明する。
論文 参考訳(メタデータ) (2022-02-20T02:50:09Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Sequence-to-Sequence Learning with Latent Neural Grammars [12.624691611049341]
ニューラルネットワークを用いたシーケンス対シーケンス学習は、シーケンス予測タスクのデファクトスタンダードとなっている。
フレキシブルでパフォーマンスが高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで驚くほど失敗することがある。
この研究は、準同期文法を用いたシーケンシャル・ツー・シークエンス学習の代替的、階層的アプローチを探求する。
論文 参考訳(メタデータ) (2021-09-02T17:58:08Z) - Estimating the Generalization in Deep Neural Networks via Sparsity [15.986873241115651]
本稿では,ネットワークの分散度に基づいて一般化ギャップを推定する新しい手法を提案する。
一般的なデータセット上で幅広い一般化ギャップを持つDNNを訓練することにより、DNNの一般化ギャップを推定する上で、我々の重要な量と線形モデルが効率的なツールであることを示す。
論文 参考訳(メタデータ) (2021-04-02T02:10:32Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。