論文の概要: On the locality bias and results in the Long Range Arena
- arxiv url: http://arxiv.org/abs/2501.14850v1
- Date: Fri, 24 Jan 2025 15:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:46.155707
- Title: On the locality bias and results in the Long Range Arena
- Title(参考訳): 長距離アリーナにおける局所性バイアスと結果について
- Authors: Pablo Miralles-González, Javier Huertas-Tato, Alejandro Martín, David Camacho,
- Abstract要約: Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
- 参考スコア(独自算出の注目度): 49.15148871877941
- License:
- Abstract: The Long Range Arena (LRA) benchmark was designed to evaluate the performance of Transformer improvements and alternatives in long-range dependency modeling tasks. The Transformer and its main variants performed poorly on this benchmark, and a new series of architectures such as State Space Models (SSMs) gained some traction, greatly outperforming Transformers in the LRA. Recent work has shown that with a denoising pre-training phase, Transformers can achieve competitive results in the LRA with these new architectures. In this work, we discuss and explain the superiority of architectures such as MEGA and SSMs in the Long Range Arena, as well as the recent improvement in the results of Transformers, pointing to the positional and local nature of the tasks. We show that while the LRA is a benchmark for long-range dependency modeling, in reality most of the performance comes from short-range dependencies. Using training techniques to mitigate data inefficiency, Transformers are able to reach state-of-the-art performance with proper positional encoding. In addition, with the same techniques, we were able to remove all restrictions from SSM convolutional kernels and learn fully parameterized convolutions without decreasing performance, suggesting that the design choices behind SSMs simply added inductive biases and learning efficiency for these particular tasks. Our insights indicate that LRA results should be interpreted with caution and call for a redesign of the benchmark.
- Abstract(参考訳): Long Range Arena (LRA) ベンチマークは、長距離依存モデリングタスクにおけるTransformerの改良と代替品の性能を評価するために設計された。
Transformerとその主な派生型は、このベンチマークでは性能が悪く、State Space Models (SSM) のような新しいアーキテクチャは、LRAのTransformerよりも大幅に向上した。
最近の研究で、トランスフォーマーは事前学習の段階を逸脱することで、これらの新しいアーキテクチャでLRAの競争的な結果が得られることが示されている。
本稿では,長距離アリーナにおけるMEGAやSSMなどのアーキテクチャの優位性,およびトランスフォーマーの最近の成果について論じ,タスクの位置的・局所的な性質を指摘する。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
トレーニング技術を用いてデータ非効率を緩和し、トランスフォーマーは適切な位置エンコーディングで最先端のパフォーマンスに到達することができる。
さらに,同じ手法により,SSMの畳み込みカーネルから制約をすべて取り除き,性能を低下させることなく完全にパラメータ化された畳み込みを学習することができた。
我々の洞察は、LRAの結果を慎重に解釈し、ベンチマークの再設計を要求するべきであることを示唆している。
関連論文リスト
- The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。