Fugu-MT 論文翻訳(概要): RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

論文の概要: RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

arxiv url: http://arxiv.org/abs/2402.18510v2
Date: Thu, 29 Feb 2024 07:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 11:15:34.449780
Title: RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
Title（参考訳）: RNNはトランスフォーマーではない (Yet): In-context Retrieval におけるキーブートネック
Authors: Kaiyue Wen, Xingyu Dang, Kaifeng Lyu
Abstract要約: 長いシーケンスの処理においてメモリ効率が知られているRNNがトランスフォーマーの性能にマッチするかどうかを理解することに注力する。重要なボトルネックは、Chain-of-Thought(CoT)であっても、RNNがコンテキストから情報を完全に取得できないことだ。 Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することで,CoT によるリアルタイム解決可能な問題を解くことができることを示す。
参考スコア（独自算出の注目度）: 16.16012030820852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and Transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance of Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting. Our theoretical analysis reveals that CoT improves RNNs but is insufficient to close the gap with Transformers. A key bottleneck lies in the inability of RNNs to perfectly retrieve information from the context, even with CoT: for several tasks that explicitly or implicitly require this capability, such as associative recall and determining if a graph is a tree, we prove that RNNs are not expressive enough to solve the tasks while Transformers can solve them with ease. Conversely, we prove that adopting techniques to enhance the in-context retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG) and adding a single Transformer layer, can elevate RNNs to be capable of solving all polynomial-time solvable problems with CoT, hence closing the representation gap with Transformers.
Abstract（参考訳）: 本稿では,アルゴリズム問題の解法におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの表現力のギャップについて検討する。我々は,長いシーケンスの処理においてメモリ効率が知られているRNNが,特にChain-of-Thought(CoT)のプロンプトによって強化された場合,トランスフォーマーの性能にマッチするかどうかを理解することに注力する。理論的解析により、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明した。連想的リコールやグラフが木であるかどうかの判断といった、明示的あるいは暗黙的にこの能力を必要とするいくつかのタスクにおいて、rnnは、トランスフォーマーが容易に解決できる一方で、タスクを解決するのに十分な表現力を持っていないことを証明します。逆に,Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することにより,CoT による多項式時間解決可能な問題を全て解き、変換器との表現ギャップを埋めることができることを示す。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Graph Neural Networks as a Substitute for Transformers in Single-Cell Transcriptomics [36.923118950844966]
Graph Neural Networks(GNN)とTransformersは、関心のあるノードからの機能と対話するためのエンコーディング戦略において、大きな類似点を共有している。本稿ではまず,GNNとトランスフォーマーの類似点と相違点について,特に相対的位置について検討する。我々は,GNNがトランスフォーマーと比較して競争性能を発揮するような大規模位置認識型データセット・単一セルトランスクリプトミクス・フィンディングについて広範な実験を行った。
論文参考訳（メタデータ） (2025-07-05T18:37:16Z)
NN-Former: Rethinking Graph Structure in Neural Architecture Representation [67.3378579108611]
グラフニューラルネットワーク(GNN)とトランスフォーマーは、ニューラルネットワークを表現する上で有望なパフォーマンスを示している。これまでの研究で見過ごされている間、兄弟ノードは中心的であることを示す。我々のアプローチは、精度と遅延予測の両方において、常に有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-01T15:46:18Z)
Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware [78.17783007774295]
本稿では,高精度かつエネルギー効率の高い単発多次元高調波検索のための変換に基づくニューロモルフィックアルゴリズムの可能性について検討する。複雑な値の畳み込み層と活性化をスパイクニューラルネットワーク(SNN)に変換する新しい手法を開発した。変換されたSNNは、元のCNNに比べて性能が低下し、ほぼ5倍の電力効率を実現している。
論文参考訳（メタデータ） (2024-12-05T09:41:33Z)
Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.783705012503237]
我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文参考訳（メタデータ） (2024-06-13T17:31:30Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Gated recurrent neural networks discover attention [9.113450161370361]
近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
論文参考訳（メタデータ） (2023-09-04T19:28:54Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。 WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文参考訳（メタデータ） (2023-03-18T10:36:33Z)
Transformed Low-Rank Parameterization Can Help Robust Generalization for Tensor Neural Networks [32.87980654923361]
Tenor Singular Value Decomposition (t-SVD)はマルチチャネルデータ表現において大きな成功を収めた。 t-SVDがt-NNの学習行動に理論的にどう影響するかはまだ不明である。本論文は、標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより、この問題に最初に答えるものである。
論文参考訳（メタデータ） (2023-03-01T03:05:40Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文参考訳（メタデータ） (2021-06-02T18:09:11Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
DiffRNN: Differential Verification of Recurrent Neural Networks [3.4423518864863154]
リカレントニューラルネットワーク(RNN)は、画像処理、データ分類、音声認識、自律システムにおけるコントローラなど、さまざまなアプリケーションで人気を集めている。構造的に類似した2つのニューラルネットワークの等価性を証明するための最初の差分検証手法であるDIFFRNNを提案する。各種ベンチマークにおいて本手法の有効性を実証し,DIFFRNNがPOPQORNのような最先端の検証ツールより優れていることを示す。
論文参考訳（メタデータ） (2020-07-20T14:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。