論文の概要: Counting and Algorithmic Generalization with Transformers
- arxiv url: http://arxiv.org/abs/2310.08661v2
- Date: Fri, 12 Jan 2024 20:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:09:26.929340
- Title: Counting and Algorithmic Generalization with Transformers
- Title(参考訳): 変圧器を用いたカウントとアルゴリズム一般化
- Authors: Simon Ouellette, Rolf Pfister, Hansueli Jud
- Abstract要約: 標準トランスフォーマーは,分散性能を損なうようなアーキテクチャ上の決定に基づくものであることを示す。
改良された変換器は、カウントにおいて優れたアルゴリズム一般化性能を示すことができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic generalization in machine learning refers to the ability to learn
the underlying algorithm that generates data in a way that generalizes
out-of-distribution. This is generally considered a difficult task for most
machine learning algorithms. Here, we analyze algorithmic generalization when
counting is required, either implicitly or explicitly. We show that standard
Transformers are based on architectural decisions that hinder
out-of-distribution performance for such tasks. In particular, we discuss the
consequences of using layer normalization and of normalizing the attention
weights via softmax. With ablation of the problematic operations, we
demonstrate that a modified transformer can exhibit a good algorithmic
generalization performance on counting while using a very lightweight
architecture.
- Abstract(参考訳): 機械学習におけるアルゴリズムの一般化は、アウト・オブ・ディストリビューションを一般化する方法でデータを生成する基礎となるアルゴリズムを学習する能力を指す。
これは一般的に、ほとんどの機械学習アルゴリズムにとって難しいタスクであると考えられている。
ここでは,暗黙的あるいは明示的にカウントが必要な場合のアルゴリズム一般化を分析する。
標準トランスフォーマーは、そのようなタスクの分散性能を妨げるアーキテクチャ上の決定に基づいている。
特に,層正規化とsoftmaxによる注意重みの正規化の結果について考察する。
問題となる演算のアブレーションにより、非常に軽量なアーキテクチャを用いて、修正トランスフォーマーがカウントに優れたアルゴリズム一般化性能を示すことを示す。
関連論文リスト
- A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Adaptivity and Modularity for Efficient Generalization Over Task
Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-13T05:29:09Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Combining Varied Learners for Binary Classification using Stacked
Generalization [3.1871776847712523]
本稿では,高次元多嚢胞性卵巣症候群データセットを用いたスタックド一般化を用いたバイナリ分類を行う。
この論文では、受信器動作特性曲線で発見された微妙なトランスグレッションが誤りであることが証明されたことを指摘している。
論文 参考訳(メタデータ) (2022-02-17T21:47:52Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Quantum-Inspired Algorithms from Randomized Numerical Linear Algebra [53.46106569419296]
我々は、リコメンダシステムと最小二乗回帰のためのクエリをサポートする古典的な(量子でない)動的データ構造を作成する。
これらの問題に対する以前の量子インスパイアされたアルゴリズムは、レバレッジやリッジレベレッジスコアを偽装してサンプリングしていると我々は主張する。
論文 参考訳(メタデータ) (2020-11-09T01:13:07Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z) - A Brief Look at Generalization in Visual Meta-Reinforcement Learning [56.50123642237106]
メタ強化学習アルゴリズムの一般化性能を評価する。
これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。
論文 参考訳(メタデータ) (2020-06-12T15:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。