論文の概要: What they do when in doubt: a study of inductive biases in seq2seq
learners
- arxiv url: http://arxiv.org/abs/2006.14953v2
- Date: Mon, 29 Mar 2021 09:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:56:56.392273
- Title: What they do when in doubt: a study of inductive biases in seq2seq
learners
- Title(参考訳): 疑わしい時に行うこと--Seq2seq学習者の帰納バイアスに関する研究
- Authors: Eugene Kharitonov and Rahma Chaabouni
- Abstract要約: 本研究では,セク2セクの学習者が学習データにあいまいなタスクを一般化する方法について検討する。
我々はソロモノフの帰納理論に結びつき、説明長を帰納バイアスの原理的かつ敏感な尺度として使うことを提案する。
- 参考スコア(独自算出の注目度): 22.678902168856624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence (seq2seq) learners are widely used, but we still have
only limited knowledge about what inductive biases shape the way they
generalize. We address that by investigating how popular seq2seq learners
generalize in tasks that have high ambiguity in the training data. We use SCAN
and three new tasks to study learners' preferences for memorization,
arithmetic, hierarchical, and compositional reasoning. Further, we connect to
Solomonoff's theory of induction and propose to use description length as a
principled and sensitive measure of inductive biases.
In our experimental study, we find that LSTM-based learners can learn to
perform counting, addition, and multiplication by a constant from a single
training example. Furthermore, Transformer and LSTM-based learners show a bias
toward the hierarchical induction over the linear one, while CNN-based learners
prefer the opposite. On the SCAN dataset, we find that CNN-based, and, to a
lesser degree, Transformer- and LSTM-based learners have a preference for
compositional generalization over memorization. Finally, across all our
experiments, description length proved to be a sensitive measure of inductive
biases.
- Abstract(参考訳): シーケンス・ツー・シークエンス(seq2seq)学習者は広く使われているが、インダクティブバイアスが一般化の仕方を形作るかについての知識は限られている。
本研究は,Seq2seq学習者が学習データにあいまいなタスクをいかに一般化するかを検討することで解決する。
我々はSCANと3つの新しいタスクを用いて学習者の暗記、算術、階層、構成的推論の好みを研究する。
さらに,ソロモンフの帰納理論とつながり,記述長を帰納バイアスの原理的かつ敏感な尺度として用いることを提案する。
本研究では,LSTMをベースとした学習者が,1つの学習例から一定回数の算数,加算,乗算を学習できることを見出した。
さらに、トランスフォーマおよびlstm学習者は線形学習よりも階層的誘導に偏りを示し、cnn学習者は逆学習を好む。
SCAN データセットでは,CNN ベースであり,トランスフォーマーやLSTM ベースの学習者は記憶よりも構成的一般化を好む。
最後に、すべての実験を通して、説明の長さはインダクティブバイアスの敏感な尺度であることが分かりました。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-15T17:15:24Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Universal linguistic inductive biases via meta-learning [36.43388942327124]
帰納的バイアスが言語習得における観察されたパターンを説明することができるかは不明である。
ニューラルネットワークモデルに言語的帰納バイアスを与えるためのフレームワークを導入する。
この枠組みを音節構造に基づくケーススタディで実証する。
論文 参考訳(メタデータ) (2020-06-29T19:15:10Z) - Rethink the Connections among Generalization, Memorization and the
Spectral Bias of DNNs [44.5823185453399]
学習バイアスの単調性は必ずしも保たないことを示す。
深層降下実験では,DNNの高周波成分は訓練後期に減少する。
論文 参考訳(メタデータ) (2020-04-29T04:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。