論文の概要: Transformers meet Neural Algorithmic Reasoners
- arxiv url: http://arxiv.org/abs/2406.09308v1
- Date: Thu, 13 Jun 2024 16:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:45:33.091501
- Title: Transformers meet Neural Algorithmic Reasoners
- Title(参考訳): トランスフォーマーがニューラルアルゴリズム推論器と出会う
- Authors: Wilfried Bounsi, Borja Ibarz, Andrew Dudzik, Jessica B. Hamrick, Larisa Markeeva, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković,
- Abstract要約: 我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 16.5785372289558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized machine learning with their simple yet effective architecture. Pre-training Transformers on massive text datasets from the Internet has led to unmatched generalization for natural language understanding (NLU) tasks. However, such language models remain fragile when tasked with algorithmic forms of reasoning, where computations must be precise and robust. To address this limitation, we propose a novel approach that combines the Transformer's language understanding with the robustness of graph neural network (GNN)-based neural algorithmic reasoners (NARs). Such NARs proved effective as generic solvers for algorithmic tasks, when specified in graph form. To make their embeddings accessible to a Transformer, we propose a hybrid architecture with a two-phase training procedure, allowing the tokens in the language model to cross-attend to the node embeddings from the NAR. We evaluate our resulting TransNAR model on CLRS-Text, the text-based version of the CLRS-30 benchmark, and demonstrate significant gains over Transformer-only models for algorithmic reasoning, both in and out of distribution.
- Abstract(参考訳): トランスフォーマーは、シンプルだが効果的なアーキテクチャで機械学習に革命をもたらした。
インターネットから大量のテキストデータセットを事前学習するトランスフォーマーは、自然言語理解(NLU)タスクの未整合の一般化につながっている。
しかし、そのような言語モデルは、アルゴリズム的な推論の形式を扱う際にも脆弱なままであり、計算は正確で堅牢でなければならない。
この制限に対処するために、Transformer言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
このようなNARは、グラフ形式で指定されたアルゴリズムタスクの汎用的な解法として有効であることが証明された。
トランスフォーマーへの埋め込みを可能にするために,言語モデルのトークンをNARからのノード埋め込みにクロスアタッチ可能な,2段階のトレーニング手順を備えたハイブリッドアーキテクチャを提案する。
CLRS-30ベンチマークのテキストベースのバージョンであるCLRS-Text上で得られたTransNARモデルを評価し、分布内および外の両方のアルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。