論文の概要: Do Transformers use variable binding?
- arxiv url: http://arxiv.org/abs/2203.00162v1
- Date: Sat, 19 Feb 2022 09:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 13:13:57.083156
- Title: Do Transformers use variable binding?
- Title(参考訳): Transformerは変数バインディングを使用するか?
- Authors: Tommi Gr\"ondahl and N. Asokan
- Abstract要約: ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。
1つの中心的なシンボル容量は変数バインディングであり、入力値をシステム内部メモリに保持されている抽象変数にリンクする。
本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。
- 参考スコア(独自算出の注目度): 14.222494511474103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the explainability of deep neural networks (DNNs) requires
evaluating whether they implement symbolic computation. One central symbolic
capacity is variable binding: linking an input value to an abstract variable
held in system-internal memory. Prior work on the computational abilities of
DNNs has not resolved the question of whether their internal processes involve
variable binding. We argue that the reason for this is fundamental, inherent in
the way experiments in prior work were designed. We provide the first
systematic evaluation of the variable binding capacities of the
state-of-the-art Transformer networks BERT and RoBERTa. Our experiments are
designed such that the model must generalize a rule across disjoint subsets of
the input vocabulary, and cannot rely on associative pattern matching alone.
The results show a clear discrepancy between classification and
sequence-to-sequence tasks: BERT and RoBERTa can easily learn to copy or
reverse strings even when trained on task-specific vocabularies that are
switched in the test set; but both models completely fail to generalize across
vocabularies in similar sequence classification tasks. These findings indicate
that the effectiveness of Transformers in sequence modelling may lie in their
extensive use of the input itself as an external "memory" rather than
network-internal symbolic operations involving variable binding. Therefore, we
propose a novel direction for future work: augmenting the inputs available to
circumvent the lack of network-internal variable binding.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。
中心となるシンボリックキャパシティの1つは変数バインディングである:入力値とシステム内部メモリに保持されている抽象変数をリンクする。
DNNの計算能力に関する以前の研究は、内部プロセスが変数結合を含むかどうかという問題を解決していない。
この理由は基本的であり、事前の作業における実験の設計方法に固有のものである、と私たちは主張する。
本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。
我々の実験は、入力語彙の解離部分集合にまたがる規則を一般化するように設計されており、連想パターンマッチングのみに依存することはできない。
BERTとRoBERTaは、テストセットで切り替わるタスク固有の語彙で訓練された場合でも、文字列のコピーやリバースを簡単に学べるが、どちらのモデルも、類似のシーケンス分類タスクにおいて語彙をまたいで完全に一般化できない。
これらの結果から, シーケンスモデリングにおけるトランスフォーマーの有効性は, 可変結合を含むネットワーク内部のシンボル操作よりも, 入力自体を外部の「メモリ」として広く活用していることが示唆された。
そこで本研究では,ネットワーク内部変数バインディングの欠如を回避するために利用可能な入力を増強する,今後の作業のための新しい方向性を提案する。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - Causal Interpretation of Self-Attention in Pre-Trained Transformers [4.419843514606336]
本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
論文 参考訳(メタデータ) (2023-10-31T09:27:12Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。