論文の概要: Analyzing the Nuances of Transformers' Polynomial Simplification
Abilities
- arxiv url: http://arxiv.org/abs/2104.14095v1
- Date: Thu, 29 Apr 2021 03:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 23:48:42.253743
- Title: Analyzing the Nuances of Transformers' Polynomial Simplification
Abilities
- Title(参考訳): 変圧器の多項式単純化能力のニュアンス解析
- Authors: Vishesh Agarwal, Somak Aditya, Navin Goyal
- Abstract要約: 我々は、Transformerが数値乗算に一貫して苦労していることを示します。
そこで我々は,カリキュラムの学習と記号計算のアプローチという2つの方法を検討した。
どちらのアプローチも、バニラトランスフォーマーベースのベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 11.552059052724907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic Mathematical tasks such as integration often require multiple
well-defined steps and understanding of sub-tasks to reach a solution. To
understand Transformers' abilities in such tasks in a fine-grained manner, we
deviate from traditional end-to-end settings, and explore a step-wise
polynomial simplification task. Polynomials can be written in a simple normal
form as a sum of monomials which are ordered in a lexicographic order. For a
polynomial which is not necessarily in this normal form, a sequence of
simplification steps is applied to reach the fully simplified (i.e., in the
normal form) polynomial. We propose a synthetic Polynomial dataset generation
algorithm that generates polynomials with unique proof steps. Through varying
coefficient configurations, input representation, proof granularity, and
extensive hyper-parameter tuning, we observe that Transformers consistently
struggle with numeric multiplication. We explore two ways to mitigate this:
Curriculum Learning and a Symbolic Calculator approach (where the numeric
operations are offloaded to a calculator). Both approaches provide significant
gains over the vanilla Transformers-based baseline.
- Abstract(参考訳): 統合のような象徴的な数学的タスクは、解に到達するのに複数のよく定義されたステップとサブタスクの理解を必要とする。
このようなタスクにおけるトランスフォーマーの能力を理解するために、従来のエンドツーエンド設定から逸脱し、ステップワイズ多項式単純化タスクを探索する。
多項式は、語彙順に順序付けられた単項の和として単純な正規形式で書くことができる。
この正規形式に必ずしも従わない多項式に対しては、単純化ステップの列を適用して、完全に単純化された多項式(すなわち正規形式)に到達する。
独自の証明ステップを持つ多項式を生成する合成多項式データセット生成アルゴリズムを提案する。
様々な係数構成、入力表現、証明粒度、広範ハイパーパラメータチューニングにより、トランスフォーマーは数値乗算に一貫して苦労する。
カリキュラム学習(Curriculum Learning)とシンボリック計算機(Symbolic Calculator)アプローチ(数値演算を計算機にオフロードする)の2つの方法を模索する。
どちらのアプローチも、バニラトランスフォーマーベースのベースラインを大きく上回っている。
関連論文リスト
- From Exponential to Polynomial Complexity: Efficient Permutation Counting with Subword Constraints [0.0]
置換による異なる置換を数えることは、特に複数のサブワードを含む場合、分析における長年の課題である。
本稿では,置換による異なる置換を計算するための閉形式式を示す新しいフレームワークを提案する。
次に、新たな式を開発することにより、基本公式を複数のサブワードを扱うように拡張する。
論文 参考訳(メタデータ) (2024-11-23T19:52:11Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Complementary polynomials in quantum signal processing [0.0]
与えられた$P$を実装するには、まず対応する補完的な$Q$を構築しなければならない。
この問題に対する既存のアプローチでは、明示的な誤り解析には適さない数値的手法が採用されている。
複素解析を用いた補体系に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-06T16:47:11Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Simplifying Polylogarithms with Machine Learning [0.0]
粒子物理学に関連する多くの計算において、多対数の複雑な組み合わせはファインマン積分から生じることが多い。
本稿では,ゲーム中の動きに類似したアイデンティティを持つ強化学習アプローチと,言語翻訳タスクと類似した認識を行うトランスフォーマーネットワークアプローチについて考察する。
論文 参考訳(メタデータ) (2022-06-08T18:20:21Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。