論文の概要: The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization
- arxiv url: http://arxiv.org/abs/2110.07732v1
- Date: Thu, 14 Oct 2021 21:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:20:18.748526
- Title: The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization
- Title(参考訳): ニューラルデータルータ:変圧器の適応制御流によるシステム一般化の改善
- Authors: R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber
- Abstract要約: 本稿では,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的アテンションの2つの改良を提案する。
我々の新しいニューラル・データ・ルータ(NDR)は、古典的な構成表検索タスクにおいて、100%長の一般化精度を実現する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
- 参考スコア(独自算出の注目度): 8.424405898986118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite successes across a broad range of applications, Transformers have
limited success in systematic generalization. The situation is especially
frustrating in the case of algorithmic tasks, where they often fail to find
intuitive solutions that route relevant information to the right node/operation
at the right time in the grid represented by Transformer columns. To facilitate
the learning of useful control flow, we propose two modifications to the
Transformer architecture, copy gate and geometric attention. Our novel Neural
Data Router (NDR) achieves 100% length generalization accuracy on the classic
compositional table lookup task, as well as near-perfect accuracy on the simple
arithmetic task and a new variant of ListOps testing for generalization across
computational depth. NDR's attention and gating patterns tend to be
interpretable as an intuitive form of neural routing. Our code is public.
- Abstract(参考訳): 幅広いアプリケーションで成功したにもかかわらず、トランスフォーマーは体系的な一般化において限られた成功を収めている。
アルゴリズムタスクの場合、トランスフォーマー列で表されるグリッドにおいて、適切なタイミングで適切なノード/運用に関連情報をルーティングする直感的なソリューションを見つけるのに失敗することが多い。
有用な制御フローの学習を容易にするため,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的注意の2つの改良を提案する。
提案するニューラル・データ・ルータ(NDR)は,従来の構成表検索タスクにおいて100%長の一般化精度を達成し,計算深度を越えた一般化のための簡易演算タスクとListOpsテストの新しい変種を提案する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
私たちのコードは公開されています。
関連論文リスト
- Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。
その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-05-28T18:31:14Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。
我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文 参考訳(メタデータ) (2023-05-05T12:08:57Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Pathfinding Neural Cellular Automata [23.831530224401575]
Pathfindingは、ロボットパス計画、トランスポートルーティング、ゲームプレイなど、幅広い複雑なAIタスクの重要なサブコンポーネントである。
我々は, Breadth-First Search (BFS) のモデル,すなわち最短経路探索のハンドコードと学習を行う。
本稿では、Depth-First Search(DFS)のニューラル実装を提案し、グラフの直径を計算するためのNAAを生成するために、ニューラルネットワークBFSと組み合わせる方法について概説する。
我々は,これらの手書きNCAに触発されたアーキテクチャ変更を実験し,グリッド迷路の直径問題を解くためにゼロからネットワークをトレーニングし,高い能力の一般化を示した。
論文 参考訳(メタデータ) (2023-01-17T11:45:51Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric
Guidance [22.39628991021092]
本稿では,3次元スパースボクセルトランスのためのCodedVTR(Codebook-based Voxel TRansformer)を提案する。
一方、学習可能なコードブックにおける「プロトタイプ」の組み合わせで表されるサブ空間に注意空間を投影するコードブックベースの注意を提案する。
一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を誘導する幾何学的自己注意を提案する。
論文 参考訳(メタデータ) (2022-03-18T11:50:25Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。