論文の概要: Analyzing the Nuances of Transformers' Polynomial Simplification
Abilities
- arxiv url: http://arxiv.org/abs/2104.14095v1
- Date: Thu, 29 Apr 2021 03:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 23:48:42.253743
- Title: Analyzing the Nuances of Transformers' Polynomial Simplification
Abilities
- Title(参考訳): 変圧器の多項式単純化能力のニュアンス解析
- Authors: Vishesh Agarwal, Somak Aditya, Navin Goyal
- Abstract要約: 我々は、Transformerが数値乗算に一貫して苦労していることを示します。
そこで我々は,カリキュラムの学習と記号計算のアプローチという2つの方法を検討した。
どちらのアプローチも、バニラトランスフォーマーベースのベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 11.552059052724907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic Mathematical tasks such as integration often require multiple
well-defined steps and understanding of sub-tasks to reach a solution. To
understand Transformers' abilities in such tasks in a fine-grained manner, we
deviate from traditional end-to-end settings, and explore a step-wise
polynomial simplification task. Polynomials can be written in a simple normal
form as a sum of monomials which are ordered in a lexicographic order. For a
polynomial which is not necessarily in this normal form, a sequence of
simplification steps is applied to reach the fully simplified (i.e., in the
normal form) polynomial. We propose a synthetic Polynomial dataset generation
algorithm that generates polynomials with unique proof steps. Through varying
coefficient configurations, input representation, proof granularity, and
extensive hyper-parameter tuning, we observe that Transformers consistently
struggle with numeric multiplication. We explore two ways to mitigate this:
Curriculum Learning and a Symbolic Calculator approach (where the numeric
operations are offloaded to a calculator). Both approaches provide significant
gains over the vanilla Transformers-based baseline.
- Abstract(参考訳): 統合のような象徴的な数学的タスクは、解に到達するのに複数のよく定義されたステップとサブタスクの理解を必要とする。
このようなタスクにおけるトランスフォーマーの能力を理解するために、従来のエンドツーエンド設定から逸脱し、ステップワイズ多項式単純化タスクを探索する。
多項式は、語彙順に順序付けられた単項の和として単純な正規形式で書くことができる。
この正規形式に必ずしも従わない多項式に対しては、単純化ステップの列を適用して、完全に単純化された多項式(すなわち正規形式)に到達する。
独自の証明ステップを持つ多項式を生成する合成多項式データセット生成アルゴリズムを提案する。
様々な係数構成、入力表現、証明粒度、広範ハイパーパラメータチューニングにより、トランスフォーマーは数値乗算に一貫して苦労する。
カリキュラム学習(Curriculum Learning)とシンボリック計算機(Symbolic Calculator)アプローチ(数値演算を計算機にオフロードする)の2つの方法を模索する。
どちらのアプローチも、バニラトランスフォーマーベースのベースラインを大きく上回っている。
関連論文リスト
- Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - The Expressive Power of Transformers with Chain of Thought [35.25166532364007]
実際には、トランスフォーマーの推論は、答える前に中間トークン列を生成および条件にすることで改善することができる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置し, 解解時間問題のクラスを正確に認識させる。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Simplifying Polylogarithms with Machine Learning [0.0]
粒子物理学に関連する多くの計算において、多対数の複雑な組み合わせはファインマン積分から生じることが多い。
本稿では,ゲーム中の動きに類似したアイデンティティを持つ強化学習アプローチと,言語翻訳タスクと類似した認識を行うトランスフォーマーネットワークアプローチについて考察する。
論文 参考訳(メタデータ) (2022-06-08T18:20:21Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。