論文の概要: Mapping the Timescale Organization of Neural Language Models
- arxiv url: http://arxiv.org/abs/2012.06717v2
- Date: Wed, 17 Mar 2021 21:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:20:20.405050
- Title: Mapping the Timescale Organization of Neural Language Models
- Title(参考訳): ニューラルネットワークモデルの時間スケール構成のマッピング
- Authors: Hsiang-Yun Sherry Chien, Jinhan Zhang and Christopher. J. Honey
- Abstract要約: 語レベルのLSTM言語モデル内に個々の単位の「処理時間スケール」をマッピングするために,神経科学で開発されたツールを適用した。
このマッピングでは、長い時間スケールと以前は探索されていなかった機能を持つネットワークの小さなサブセットが明らかになった。
制御器」ユニットは密接な相互接続されたサブネットワークを構成し、ネットワークの他の部分へ強く投影され、一方「積分器」ユニットはネットワーク内で最も長い時間スケールを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the human brain, sequences of language input are processed within a
distributed and hierarchical architecture, in which higher stages of processing
encode contextual information over longer timescales. In contrast, in recurrent
neural networks which perform natural language processing, we know little about
how the multiple timescales of contextual information are functionally
organized. Therefore, we applied tools developed in neuroscience to map the
"processing timescales" of individual units within a word-level LSTM language
model. This timescale-mapping method assigned long timescales to units
previously found to track long-range syntactic dependencies. Additionally, the
mapping revealed a small subset of the network (less than 15% of units) with
long timescales and whose function had not previously been explored. We next
probed the functional organization of the network by examining the relationship
between the processing timescale of units and their network connectivity. We
identified two classes of long-timescale units: "controller" units composed a
densely interconnected subnetwork and strongly projected to the rest of the
network, while "integrator" units showed the longest timescales in the network,
and expressed projection profiles closer to the mean projection profile.
Ablating integrator and controller units affected model performance at
different positions within a sentence, suggesting distinctive functions of
these two sets of units. Finally, we tested the generalization of these results
to a character-level LSTM model and models with different architectures. In
summary, we demonstrated a model-free technique for mapping the timescale
organization in recurrent neural networks, and we applied this method to reveal
the timescale and functional organization of neural language models.
- Abstract(参考訳): 人間の脳では、言語入力のシーケンスは、より長い時間スケールで文脈情報をエンコードする、分散的で階層的なアーキテクチャ内で処理される。
対照的に、自然言語処理を行うリカレントニューラルネットワークでは、コンテキスト情報の複数の時間スケールがどのように機能的に構成されているかはほとんど分かっていない。
そこで我々は神経科学で開発されたツールを用いて,単語レベルLSTM言語モデル内の個々の単位の「処理時間スケール」をマッピングした。
このタイムスケールマッピング法は、これまで長距離構文依存を追跡していたユニットに長いタイムスケールを割り当てた。
さらに、マッピングによってネットワークの小さなサブセット(15%未満)が示され、長い時間スケールがあり、以前はその機能は探索されていなかった。
次に,ユニットの処理時間スケールとネットワーク接続性の関係を調べ,ネットワークの機能的構成について検討した。
制御器」ユニットは密接な相互接続されたサブネットワークで構成され、ネットワークの他の部分に強く投影され、一方「積分器」ユニットはネットワーク内で最も長い時間スケールを示し、平均投影プロファイルに近いプロジェクションプロファイルを表現した。
インテグレータとコントローラユニットの非難は文内の異なる位置におけるモデル性能に影響し、これら2つのユニットの特徴的な機能を示している。
最後に,これらの結果を,異なるアーキテクチャを持つキャラクタレベルのLSTMモデルとモデルに一般化する実験を行った。
まとめると、リカレントニューラルネットワークにおける時間スケールの組織をマッピングするためのモデルフリー手法を実証し、この手法を適用し、ニューラルネットワークモデルの時間スケールと機能的構造を明らかにする。
関連論文リスト
- FocusLearn: Fully-Interpretable, High-Performance Modular Neural Networks for Time Series [0.3277163122167434]
本稿では,構築によって解釈可能な時系列予測のための新しいモジュール型ニューラルネットワークモデルを提案する。
リカレントニューラルネットワークはデータ内の時間的依存関係を学習し、アテンションベースの特徴選択コンポーネントは最も関連性の高い特徴を選択する。
モジュール型のディープネットワークは、選択した機能から独立してトレーニングされ、ユーザーが機能がどのように結果に影響を与えるかを示し、モデルを解釈できる。
論文 参考訳(メタデータ) (2023-11-28T14:51:06Z) - MTS2Graph: Interpretable Multivariate Time Series Classification with
Temporal Evolving Graphs [1.1756822700775666]
入力代表パターンを抽出・クラスタリングすることで時系列データを解釈する新しいフレームワークを提案する。
UCR/UEAアーカイブの8つのデータセットとHARとPAMデータセットで実験を行います。
論文 参考訳(メタデータ) (2023-06-06T16:24:27Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Learning Signal Temporal Logic through Neural Network for Interpretable
Classification [13.829082181692872]
本稿では時系列行動の分類のための説明可能なニューラルネットワーク・シンボリック・フレームワークを提案する。
提案手法の計算効率, コンパクト性, 解釈可能性について, シナリオの駆動と海軍の監視事例研究を通じて実証する。
論文 参考訳(メタデータ) (2022-10-04T21:11:54Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Long Short-term Cognitive Networks [2.2748974006378933]
本稿では,短期認知ネットワーク(STCN)モデルの一般化として,Long Short-term Cognitive Networks (LSTCNs) と名づけられたリカレントニューラルネットワークを提案する。
我々のニューラルネットワークは、最先端のリカレントモデルよりも数千倍高速であるながら、小さな予測エラーを報告します。
論文 参考訳(メタデータ) (2021-06-30T17:42:09Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Meta-Learning for Koopman Spectral Analysis with Short Time-series [49.41640137945938]
既存の手法では、ニューラルネットワークのトレーニングに長い時間を要する。
本稿では,未知の短い時系列から埋め込み関数を推定するメタラーニング手法を提案する。
提案手法は,固有値推定と将来予測の観点から,よりよい性能を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2021-02-09T07:19:19Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。