論文の概要: Adaptivity and Modularity for Efficient Generalization Over Task
Complexity
- arxiv url: http://arxiv.org/abs/2310.08866v1
- Date: Fri, 13 Oct 2023 05:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:25:45.203351
- Title: Adaptivity and Modularity for Efficient Generalization Over Task
Complexity
- Title(参考訳): タスク複雑性の効率的な一般化のための適応性とモジュラリティ
- Authors: Samira Abnar, Omid Saremi, Laurent Dinh, Shantel Wilson, Miguel Angel
Bautista, Chen Huang, Vimal Thilak, Etai Littwin, Jiatao Gu, Josh Susskind,
Samy Bengio
- Abstract要約: 変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 42.748898521364914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can transformers generalize efficiently on problems that require dealing with
examples with different levels of difficulty? We introduce a new task tailored
to assess generalization over different complexities and present results that
indicate that standard transformers face challenges in solving these tasks.
These tasks are variations of pointer value retrieval previously introduced by
Zhang et al. (2021). We investigate how the use of a mechanism for adaptive and
modular computation in transformers facilitates the learning of tasks that
demand generalization over the number of sequential computation steps (i.e.,
the depth of the computation graph). Based on our observations, we propose a
transformer-based architecture called Hyper-UT, which combines dynamic function
generation from hyper networks with adaptive depth from Universal Transformers.
This model demonstrates higher accuracy and a fairer allocation of
computational resources when generalizing to higher numbers of computation
steps. We conclude that mechanisms for adaptive depth and modularity complement
each other in improving efficient generalization concerning example complexity.
Additionally, to emphasize the broad applicability of our findings, we
illustrate that in a standard image recognition task, Hyper- UT's performance
matches that of a ViT model but with considerably reduced computational demands
(achieving over 70\% average savings by effectively using fewer layers).
- Abstract(参考訳): 変換器は、異なるレベルの難易度を持つ例を扱う必要がある問題に対して効率的に一般化できるのか?
本稿では,様々な複雑性に対する一般化を評価するためのタスクを新たに導入し,標準トランスフォーマーが課題に直面していることを示す。
これらのタスクは、zhang et al. (2021) が以前に導入したポインタ値検索のバリエーションである。
本稿では, 逐次計算ステップ数(計算グラフの深さ)の一般化を求めるタスクの学習を, トランスフォーマにおける適応的およびモジュラー計算の機構を用いて行う方法について検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスフォーマーからの適応深さを組み合わせたハイパーutと呼ばれるトランスフォーマーアーキテクチャを提案する。
このモデルは、より多くの計算ステップに一般化するときに、高い精度とより公平な計算リソースの割り当てを示す。
適応的な深さとモジュラリティのメカニズムは、例えば複雑性に関する効率的な一般化を改善するために互いに補完する。
さらに,本研究の広範な適用性を強調するため,標準的な画像認識タスクでは,Hyper-UTの性能はViTモデルに匹敵するが,計算要求は大幅に減少する(レイヤの削減を効果的に行うことで平均70倍以上の節約を達成する)。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Counting and Algorithmic Generalization with Transformers [0.0]
標準トランスフォーマーは,分散性能を損なうようなアーキテクチャ上の決定に基づくものであることを示す。
改良された変換器は、カウントにおいて優れたアルゴリズム一般化性能を示すことができることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:39:24Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
論文 参考訳(メタデータ) (2023-06-05T14:05:04Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation [14.866949449862226]
Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
論文 参考訳(メタデータ) (2021-12-21T22:06:24Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。