論文の概要: Discrete-Valued Neural Communication
- arxiv url: http://arxiv.org/abs/2107.02367v2
- Date: Wed, 7 Jul 2021 01:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 12:39:39.216837
- Title: Discrete-Valued Neural Communication
- Title(参考訳): 離散値ニューラル通信
- Authors: Dianbo Liu Dianbo_Liu, Alex Lamb, Kenji Kawaguchi, Anirudh Goyal, Chen
Sun, Michael Curtis Mozer, Yoshua Bengio
- Abstract要約: コンポーネント間で伝達される情報を離散表現に制限することは、有益なボトルネックであることを示す。
個人は「猫」が特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンは、個人間のコミュニケーションが内部表現の個人差によって切り離されることを可能にする。
我々は、量子化機構をベクトル量子化変分オートコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラル通信に利用する。
- 参考スコア(独自算出の注目度): 85.3675647398994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has advanced from fully connected architectures to structured
models organized into components, e.g., the transformer composed of positional
elements, modular architectures divided into slots, and graph neural nets made
up of nodes. In structured models, an interesting question is how to conduct
dynamic and possibly sparse communication among the separate components. Here,
we explore the hypothesis that restricting the transmitted information among
components to discrete representations is a beneficial bottleneck. The
motivating intuition is human language in which communication occurs through
discrete symbols. Even though individuals have different understandings of what
a "cat" is based on their specific experiences, the shared discrete token makes
it possible for communication among individuals to be unimpeded by individual
differences in internal representation. To discretize the values of concepts
dynamically communicated among specialist components, we extend the
quantization mechanism from the Vector-Quantized Variational Autoencoder to
multi-headed discretization with shared codebooks and use it for
discrete-valued neural communication (DVNC). Our experiments show that DVNC
substantially improves systematic generalization in a variety of architectures
-- transformers, modular architectures, and graph neural networks. We also show
that the DVNC is robust to the choice of hyperparameters, making the method
very useful in practice. Moreover, we establish a theoretical justification of
our discretization process, proving that it has the ability to increase noise
robustness and reduce the underlying dimensionality of the model.
- Abstract(参考訳): ディープラーニングは、完全に接続されたアーキテクチャから、位置要素で構成されるトランスフォーマ、スロットに分割されたモジュラアーキテクチャ、ノードで構成されるグラフニューラルネットなど、コンポーネント化された構造化モデルへと進化した。
構造化モデルでは、異なるコンポーネント間で動的かつおそらくスパースな通信を行う方法が興味深い質問である。
本稿では,成分間の伝達情報を離散表現に制限することが有効なボトルネックであるとする仮説を考察する。
動機づけ直観は、コミュニケーションが個別のシンボルを通して起こる人間の言語である。
個人は「猫」が特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンは、個人間のコミュニケーションが内部表現の個人差によって切り離されることを可能にする。
特殊コンポーネント間で動的に伝達される概念の値を識別するために、量子化機構をベクトル量子化変分オートエンコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラルネットワーク(DVNC)に使用する。
我々の実験によると、DVNCはトランスフォーマー、モジュラーアーキテクチャ、グラフニューラルネットワークなど、さまざまなアーキテクチャにおける体系的な一般化を大幅に改善する。
また、DVNCはハイパーパラメータの選択に頑健であり、実際に非常に有用であることを示す。
さらに、離散化過程の理論的正当性を確立し、ノイズロバスト性を高め、モデルの基礎となる次元性を低減できることを示した。
関連論文リスト
- Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Knowledge Distillation Based Semantic Communications For Multiple Users [10.770552656390038]
本稿では,複数のユーザを対象としたセマンティックコミュニケーション(SemCom)システムについて考察する。
本稿では,トランスフォーマーベースのエンコーダデコーダをセマンティックエンコーダデコーダとして実装し,チャネルエンコーダデコーダとして完全に接続されたニューラルネットワークを実装した知識蒸留(KD)システムを提案する。
数値計算の結果,KDは予期せぬ干渉に適用した場合のロバスト性や一般化能力を大幅に向上し,モデルサイズを圧縮した場合の性能損失を低減できることがわかった。
論文 参考訳(メタデータ) (2023-11-23T03:28:14Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Modeling Structure with Undirected Neural Networks [20.506232306308977]
任意の順序で実行できる計算を指定するためのフレキシブルなフレームワークである、非指向型ニューラルネットワークを提案する。
さまざまなタスクにおいて、非構造的かつ構造化された非指向型ニューラルアーキテクチャの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-08T10:06:51Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - TIME: A Transparent, Interpretable, Model-Adaptive and Explainable
Neural Network for Dynamic Physical Processes [0.0]
我々は、観測可能なシステムを再構築するために、ドメインの不変構造をキャプチャする完全な畳み込みアーキテクチャを提案する。
我々の意図は、モデル適応性のための独立したプロセスを表す真のカーネルからの逸脱として解釈された結合された動的プロセスを学ぶことである。
論文 参考訳(メタデータ) (2020-03-05T04:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。