論文の概要: RNNs are not Transformers (Yet): The Key Bottleneck on In-context
Retrieval
- arxiv url: http://arxiv.org/abs/2402.18510v2
- Date: Thu, 29 Feb 2024 07:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:15:34.449780
- Title: RNNs are not Transformers (Yet): The Key Bottleneck on In-context
Retrieval
- Title(参考訳): RNNはトランスフォーマーではない (Yet): In-context Retrieval におけるキーブートネック
- Authors: Kaiyue Wen, Xingyu Dang, Kaifeng Lyu
- Abstract要約: 長いシーケンスの処理においてメモリ効率が知られているRNNがトランスフォーマーの性能にマッチするかどうかを理解することに注力する。
重要なボトルネックは、Chain-of-Thought(CoT)であっても、RNNがコンテキストから情報を完全に取得できないことだ。
Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することで,CoT によるリアルタイム解決可能な問題を解くことができることを示す。
- 参考スコア(独自算出の注目度): 16.16012030820852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the gap in representation powers of Recurrent Neural
Networks (RNNs) and Transformers in the context of solving algorithmic
problems. We focus on understanding whether RNNs, known for their memory
efficiency in handling long sequences, can match the performance of
Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting.
Our theoretical analysis reveals that CoT improves RNNs but is insufficient to
close the gap with Transformers. A key bottleneck lies in the inability of RNNs
to perfectly retrieve information from the context, even with CoT: for several
tasks that explicitly or implicitly require this capability, such as
associative recall and determining if a graph is a tree, we prove that RNNs are
not expressive enough to solve the tasks while Transformers can solve them with
ease. Conversely, we prove that adopting techniques to enhance the in-context
retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG)
and adding a single Transformer layer, can elevate RNNs to be capable of
solving all polynomial-time solvable problems with CoT, hence closing the
representation gap with Transformers.
- Abstract(参考訳): 本稿では,アルゴリズム問題の解法におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの表現力のギャップについて検討する。
我々は,長いシーケンスの処理においてメモリ効率が知られているRNNが,特にChain-of-Thought(CoT)のプロンプトによって強化された場合,トランスフォーマーの性能にマッチするかどうかを理解することに注力する。
理論的解析により、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明した。
連想的リコールやグラフが木であるかどうかの判断といった、明示的あるいは暗黙的にこの能力を必要とするいくつかのタスクにおいて、rnnは、トランスフォーマーが容易に解決できる一方で、タスクを解決するのに十分な表現力を持っていないことを証明します。
逆に,Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することにより,CoT による多項式時間解決可能な問題を全て解き、変換器との表現ギャップを埋めることができることを示す。
関連論文リスト
- Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.783705012503237]
我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。
対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。
また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:31:30Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Gated recurrent neural networks discover attention [9.113450161370361]
近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。
乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。
我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
論文 参考訳(メタデータ) (2023-09-04T19:28:54Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Transformed Low-Rank Parameterization Can Help Robust Generalization for
Tensor Neural Networks [32.87980654923361]
Tenor Singular Value Decomposition (t-SVD)はマルチチャネルデータ表現において大きな成功を収めた。
t-SVDがt-NNの学習行動に理論的にどう影響するかはまだ不明である。
本論文は、標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより、この問題に最初に答えるものである。
論文 参考訳(メタデータ) (2023-03-01T03:05:40Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - DiffRNN: Differential Verification of Recurrent Neural Networks [3.4423518864863154]
リカレントニューラルネットワーク(RNN)は、画像処理、データ分類、音声認識、自律システムにおけるコントローラなど、さまざまなアプリケーションで人気を集めている。
構造的に類似した2つのニューラルネットワークの等価性を証明するための最初の差分検証手法であるDIFFRNNを提案する。
各種ベンチマークにおいて本手法の有効性を実証し,DIFFRNNがPOPQORNのような最先端の検証ツールより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-20T14:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。