論文の概要: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- arxiv url: http://arxiv.org/abs/2301.13105v1
- Date: Mon, 30 Jan 2023 17:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:38:19.912977
- Title: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- Title(参考訳): 未発見の論理推論と学位カリキュラムの一般化
- Authors: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk
- Abstract要約: 本稿では,GOTU設定の一般化に着目した論理関数の学習について考察する。
我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。
本稿では,トランスフォーマー,ランダム特徴モデル,対角線ネットワークなどを含むネットワークモデルのクラスについて,その見知らぬ部分でMin-degree-interpolator (MDI) を学習したことを示す。
- 参考スコア(独自算出の注目度): 33.777993397106584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the learning of logical (Boolean) functions with focus
on the generalization on the unseen (GOTU) setting, a strong case of
out-of-distribution generalization. This is motivated by the fact that the rich
combinatorial nature of data in certain reasoning tasks (e.g.,
arithmetic/logic) makes representative data sampling challenging, and learning
successfully under GOTU gives a first vignette of an 'extrapolating' or
'reasoning' learner. We then study how different network architectures trained
by (S)GD perform under GOTU and provide both theoretical and experimental
evidence that for a class of network models including instances of
Transformers, random features models, and diagonal linear networks, a
min-degree-interpolator (MDI) is learned on the unseen. We also provide
evidence that other instances with larger learning rates or mean-field networks
reach leaky MDIs. These findings lead to two implications: (1) we provide an
explanation to the length generalization problem (e.g., Anil et al. 2022); (2)
we introduce a curriculum learning algorithm called Degree-Curriculum that
learns monomials more efficiently by incrementing supports.
- Abstract(参考訳): 本稿では,論理関数の学習を,分散一般化の強い場合である未完(gotu)設定の一般化に焦点をあてて検討する。
これは、ある推論タスク(例えば算術/論理学)におけるデータのリッチな組合せの性質が、代表的データのサンプリングを困難にし、GOTUの下での学習が成功すると、'extrapolating'あるいは'reasoning'学習者の最初のビゲットを与えるという事実が動機である。
次に、(S)GDでトレーニングされた異なるネットワークアーキテクチャがGOTUの下でどのように機能するかを研究し、トランスフォーマーのインスタンス、ランダム特徴モデル、対角線ネットワークを含むネットワークモデルのクラスにおいて、MDI(min-degree-interpolator)が未確認で学習されるという理論的および実験的証拠を提供する。
また,学習率や平均フィールドネットワークが漏洩したMDIに到達した事例も提示する。
これらの知見は,(1)長さ一般化問題(例: Anil et al. 2022)を説明すること,(2)単項をより効率的に学習するDegree-Curriculumというカリキュラム学習アルゴリズムを導入すること,の2つに繋がる。
関連論文リスト
- Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - A Model of One-Shot Generalization [6.155604731137828]
ワンショット一般化(One-shot generalization)とは、ひとつのタスク内で伝達学習を行うアルゴリズムの能力である。
データモデルに対する最も直接的なニューラルネットワークアーキテクチャは、ほぼ完璧にワンショットの一般化を実行することを示す。
論文 参考訳(メタデータ) (2022-05-29T01:41:29Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。
また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文 参考訳(メタデータ) (2020-02-26T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。