論文の概要: Understanding Robust Generalization in Learning Regular Languages
- arxiv url: http://arxiv.org/abs/2202.09717v1
- Date: Sun, 20 Feb 2022 02:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 13:48:40.674839
- Title: Understanding Robust Generalization in Learning Regular Languages
- Title(参考訳): 正規言語学習におけるロバスト一般化の理解
- Authors: Soham Dan and Osbert Bastani and Dan Roth
- Abstract要約: 我々は、リカレントニューラルネットワークを用いて正規言語を学習する文脈における堅牢な一般化について研究する。
この問題に対処するための構成戦略を提案する。
構成戦略がエンド・ツー・エンド戦略よりもはるかに優れていることを理論的に証明する。
- 参考スコア(独自算出の注目度): 85.95124524975202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key feature of human intelligence is the ability to generalize beyond the
training distribution, for instance, parsing longer sentences than seen in the
past. Currently, deep neural networks struggle to generalize robustly to such
shifts in the data distribution. We study robust generalization in the context
of using recurrent neural networks (RNNs) to learn regular languages. We
hypothesize that standard end-to-end modeling strategies cannot generalize well
to systematic distribution shifts and propose a compositional strategy to
address this. We compare an end-to-end strategy that maps strings to labels
with a compositional strategy that predicts the structure of the deterministic
finite-state automaton (DFA) that accepts the regular language. We
theoretically prove that the compositional strategy generalizes significantly
better than the end-to-end strategy. In our experiments, we implement the
compositional strategy via an auxiliary task where the goal is to predict the
intermediate states visited by the DFA when parsing a string. Our empirical
results support our hypothesis, showing that auxiliary tasks can enable robust
generalization. Interestingly, the end-to-end RNN generalizes significantly
better than the theoretical lower bound, suggesting that it is able to achieve
at least some degree of robust generalization.
- Abstract(参考訳): 人間の知性の重要な特徴は、例えば過去のものよりも長い文を解析するなど、トレーニング分布を超えて一般化する能力である。
現在、ディープニューラルネットワークは、データ分散のこのようなシフトにロバストに一般化するのに苦労している。
本研究では,recurrent neural network(rnn)を用いた正規言語学習におけるロバスト一般化について検討する。
我々は,標準的なエンドツーエンドモデリング戦略が系統的な分布シフトにうまく適応できないことを仮定し,これに対応するための構成戦略を提案する。
我々は、文字列をラベルにマッピングするエンドツーエンド戦略と、正規言語を受け入れる決定論的有限状態オートマトン(DFA)の構造を予測する構成戦略を比較する。
理論上は、構成戦略がエンドツーエンド戦略よりもかなり優れていることを証明している。
本実験では,DFAが文字列を解析する際に訪れた中間状態を予測するための補助的タスクによって構成戦略を実装した。
我々の経験的結果は我々の仮説を支持し、補助的なタスクが堅牢な一般化を可能にすることを示す。
興味深いことに、エンドツーエンドの RNN は理論的な下界よりもはるかに良く一般化し、少なくともある程度の堅牢な一般化を達成することができることを示唆している。
関連論文リスト
- Structural generalization in COGS: Supertagging is (almost) all you need [12.991247861348048]
最近のセマンティック解析データセットは、合成一般化が必要な場合において、ニューラルネットワークの重要な制限を提示している。
この問題を軽減するために、ニューラルネットワークベースのセマンティックパーシングフレームワークをいくつかの方法で拡張します。
論文 参考訳(メタデータ) (2023-10-21T21:51:25Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Towards Understanding the Generalization of Graph Neural Networks [9.217947432437546]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ指向学習と表現において最も広く採用されているモデルである。
まず,帰納学習における一般化ギャップと勾配の確率境界を確立する。
理論的な結果は、一般化ギャップに影響を与えるアーキテクチャ固有の要因を明らかにする。
論文 参考訳(メタデータ) (2023-05-14T03:05:14Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Generalization Through the Lens of Learning Dynamics [11.009483845261958]
機械学習(ML)システムは、デプロイ時に正確な予測を得るために、新しい状況に一般化することを学ぶ必要がある。
ディープニューラルネットワークの印象的な一般化性能は、理論家たちに悪影響を与えている。
この論文は、教師付き学習タスクと強化学習タスクの両方において、ディープニューラルネットワークの学習ダイナミクスを研究する。
論文 参考訳(メタデータ) (2022-12-11T00:07:24Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Neural Networks and the Chomsky Hierarchy [27.470857324448136]
チョムスキー理論の知見が実際にニューラルネットワークの一般化の限界を予測できるかどうかを考察する。
膨大なデータとトレーニング時間さえも、非自明な一般化に繋がらない負の結果を示す。
この結果から,RNNとTransformerは非正規タスクの一般化に失敗し,構造化メモリで拡張されたネットワークのみがコンテキストレス・コンテキスト依存タスクの一般化に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-05T15:06:11Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Estimating the Generalization in Deep Neural Networks via Sparsity [15.986873241115651]
本稿では,ネットワークの分散度に基づいて一般化ギャップを推定する新しい手法を提案する。
一般的なデータセット上で幅広い一般化ギャップを持つDNNを訓練することにより、DNNの一般化ギャップを推定する上で、我々の重要な量と線形モデルが効率的なツールであることを示す。
論文 参考訳(メタデータ) (2021-04-02T02:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。