論文の概要: Dynamic Inference with Neural Interpreters
- arxiv url: http://arxiv.org/abs/2110.06399v1
- Date: Tue, 12 Oct 2021 23:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 03:48:43.172840
- Title: Dynamic Inference with Neural Interpreters
- Title(参考訳): 神経インタプリタによる動的推論
- Authors: Nasim Rahaman, Muhammad Waleed Gondal, Shruti Joshi, Peter Gehler,
Yoshua Bengio, Francesco Locatello, Bernhard Sch\"olkopf
- Abstract要約: 本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
- 参考スコア(独自算出の注目度): 72.90231306252007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural network architectures can leverage large amounts of data to
generalize well within the training distribution. However, they are less
capable of systematic generalization to data drawn from unseen but related
distributions, a feat that is hypothesized to require compositional reasoning
and reuse of knowledge. In this work, we present Neural Interpreters, an
architecture that factorizes inference in a self-attention network as a system
of modules, which we call \emph{functions}. Inputs to the model are routed
through a sequence of functions in a way that is end-to-end learned. The
proposed architecture can flexibly compose computation along width and depth,
and lends itself well to capacity extension after training. To demonstrate the
versatility of Neural Interpreters, we evaluate it in two distinct settings:
image classification and visual abstract reasoning on Raven Progressive
Matrices. In the former, we show that Neural Interpreters perform on par with
the vision transformer using fewer parameters, while being transferrable to a
new task in a sample efficient manner. In the latter, we find that Neural
Interpreters are competitive with respect to the state-of-the-art in terms of
systematic generalization
- Abstract(参考訳): 現代のニューラルネットワークアーキテクチャは、トレーニング分布内でうまく一般化するために大量のデータを活用することができる。
しかし、それらは、知識の構成的推論と再利用を必要とすると仮定される、見当たらないが関連する分布から引き出されたデータに対する体系的な一般化にはほど遠い。
本稿では,モジュールのシステムとして自己アテンションネットワーク内の推論を分解するアーキテクチャであるNeural Interpretersを紹介し,これを「emph{functions}」と呼ぶ。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
提案アーキテクチャは、幅と深さに沿って柔軟に計算を構成でき、訓練後の容量拡張に適している。
ニューラルインタプリタの汎用性を示すために,画像分類とラヴェンプログレッシブ行列の視覚的抽象推論という2つの異なる設定で評価する。
前者では、ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
後者では、神経インタプリタが体系的一般化の観点から最先端技術に関して競争力があることが分かる。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Modeling Structure with Undirected Neural Networks [20.506232306308977]
任意の順序で実行できる計算を指定するためのフレキシブルなフレームワークである、非指向型ニューラルネットワークを提案する。
さまざまなタスクにおいて、非構造的かつ構造化された非指向型ニューラルアーキテクチャの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-08T10:06:51Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - Discrete-Valued Neural Communication [85.3675647398994]
コンポーネント間で伝達される情報を離散表現に制限することは、有益なボトルネックであることを示す。
個人は「猫」が特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンは、個人間のコミュニケーションが内部表現の個人差によって切り離されることを可能にする。
我々は、量子化機構をベクトル量子化変分オートコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラル通信に利用する。
論文 参考訳(メタデータ) (2021-07-06T03:09:25Z) - It's FLAN time! Summing feature-wise latent representations for
interpretability [0.0]
FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造拘束型ニューラルネットワークの新たなクラスを提案する。
FLANは各入力機能を別々に処理し、それぞれに共通の潜在空間の表現を演算する。
これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。
論文 参考訳(メタデータ) (2021-06-18T12:19:33Z) - Adaptive Explainable Neural Networks (AxNNs) [8.949704905866888]
我々は、予測性能とモデル解釈可能性の両目標を達成するために、Adaptive Explainable Neural Networks (AxNN) と呼ばれる新しいフレームワークを開発した。
予測性能向上のために,一般化された付加的モデルネットワークと付加的インデックスモデルからなる構造化ニューラルネットワークを構築した。
本稿では,AxNNの結果を主効果と高次相互作用効果に分解する方法を示す。
論文 参考訳(メタデータ) (2020-04-05T23:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。