論文の概要: Out-of-Distribution Generalization in Algorithmic Reasoning Through
Curriculum Learning
- arxiv url: http://arxiv.org/abs/2210.03275v1
- Date: Fri, 7 Oct 2022 01:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:36:41.235974
- Title: Out-of-Distribution Generalization in Algorithmic Reasoning Through
Curriculum Learning
- Title(参考訳): カリキュラム学習によるアルゴリズム推論における分散的一般化
- Authors: Andrew J. Nam, Mustafa Abdool, Trevor Maxfield, James L. McClelland
- Abstract要約: アウト・オブ・ディストリビューションの一般化は、ニューラルネットワークの長年の課題である。
OODGは、単純なコンポーネントタスクの分布全体からサンプリングされたサンプルを含むトレーニングセットが複雑な問題で起こりうることを示す。
- 参考スコア(独自算出の注目度): 4.191829617421395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Out-of-distribution generalization (OODG) is a longstanding challenge for
neural networks, and is quite apparent in tasks with well-defined variables and
rules, where explicit use of the rules can solve problems independently of the
particular values of the variables. Large transformer-based language models
have pushed the boundaries on how well neural networks can generalize to novel
inputs, but their complexity obfuscates they achieve such robustness. As a step
toward understanding how transformer-based systems generalize, we explore the
question of OODG in smaller scale transformers. Using a reasoning task based on
the puzzle Sudoku, we show that OODG can occur on complex problems if the
training set includes examples sampled from the whole distribution of simpler
component tasks.
- Abstract(参考訳): アウト・オブ・ディストリビューション一般化(OODG)は、ニューラルネットワークの長年にわたる課題であり、明確に定義された変数とルールを持つタスクにおいて、ルールの明示的な使用が変数の特定の値とは独立して問題を解くことができる。
大規模なトランスフォーマーベースの言語モデルによって、ニューラルネットワークが新たな入力にどのように一般化できるか、という境界が確立されている。
変圧器をベースとしたシステムがいかに一般化するかを理解するためのステップとして,小型変圧器におけるOODGの問題を探る。
パズル Sudoku に基づく推論タスクを用いて,より単純なコンポーネントタスクの分布全体からサンプル化された例を含むトレーニングセットが,複雑な問題に対して OODG が生じることを示す。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - INViT: A Generalizable Routing Problem Solver with Invariant Nested View Transformer [17.10555702634864]
深い強化学習は、高速ルーティングを学習してルーティング問題を解決するための有望な結果を示している。
解法の大半は、異なるスケールで見えない分布や分布に一般化することに苦しむ。
Invariant Nested View Transformer (INViT) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:30Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Neural Networks and the Chomsky Hierarchy [27.470857324448136]
チョムスキー理論の知見が実際にニューラルネットワークの一般化の限界を予測できるかどうかを考察する。
膨大なデータとトレーニング時間さえも、非自明な一般化に繋がらない負の結果を示す。
この結果から,RNNとTransformerは非正規タスクの一般化に失敗し,構造化メモリで拡張されたネットワークのみがコンテキストレス・コンテキスト依存タスクの一般化に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-05T15:06:11Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization [8.424405898986118]
本稿では,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的アテンションの2つの改良を提案する。
我々の新しいニューラル・データ・ルータ(NDR)は、古典的な構成表検索タスクにおいて、100%長の一般化精度を実現する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
論文 参考訳(メタデータ) (2021-10-14T21:24:27Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。