論文の概要: How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization
on Natural Text
- arxiv url: http://arxiv.org/abs/2010.00363v1
- Date: Thu, 1 Oct 2020 12:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:01:15.350995
- Title: How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization
on Natural Text
- Title(参考訳): LSTMがいかに構文を符号化するか: 文脈ベクトルの探索と自然文の半量子化
- Authors: Chihiro Shibata, Kei Uchiumi, Daichi Mochihashi
- Abstract要約: 構文構造が暗黙的に与えられる言語モデルを学ぶ。
内部ゲートの出力である文脈更新ベクトルは、ほぼ2進あるいは3進の値に量子化されていることを示す。
文脈ベクトルのいくつかの次元について、それらのアクティベーションは句構造の深さと非常に相関していることを示す。
また、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されることを示す。
- 参考スコア(独自算出の注目度): 2.881185491084005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Short-Term Memory recurrent neural network (LSTM) is widely used and
known to capture informative long-term syntactic dependencies. However, how
such information are reflected in its internal vectors for natural text has not
yet been sufficiently investigated. We analyze them by learning a language
model where syntactic structures are implicitly given. We empirically show that
the context update vectors, i.e. outputs of internal gates, are approximately
quantized to binary or ternary values to help the language model to count the
depth of nesting accurately, as Suzgun et al. (2019) recently show for
synthetic Dyck languages. For some dimensions in the context vector, we show
that their activations are highly correlated with the depth of phrase
structures, such as VP and NP. Moreover, with an $L_1$ regularization, we also
found that it can accurately predict whether a word is inside a phrase
structure or not from a small number of components of the context vector. Even
for the case of learning from raw text, context vectors are shown to still
correlate well with the phrase structures. Finally, we show that natural
clusters of the functional words and the part of speeches that trigger phrases
are represented in a small but principal subspace of the context-update vector
of LSTM.
- Abstract(参考訳): long short-term memory recurrent neural network (lstm) は、長期的な構文依存を捉えるために広く使われている。
しかし、そのような情報が自然テキストの内部ベクトルにどのように反映されているかはまだ十分に研究されていない。
構文構造が暗黙的に与えられる言語モデルを学習して分析する。
Suzgun et al. (2019)が最近発表したように、内部ゲートの出力である文脈更新ベクトルは、言語モデルがネストの深さを正確にカウントするのを助けるために、ほぼ2進または3進の値に量子化されている。
文脈ベクトルのいくつかの次元について、それらのアクティベーションは、VPやNPのようなフレーズ構造の深さと非常に相関していることを示す。
さらに,$L_1$正規化により,単語が句構造内にあるか否かを,文脈ベクトルの少数の成分から正確に予測できることがわかった。
生のテキストから学ぶ場合でさえ、文脈ベクトルはフレーズ構造とよく相関していることが示される。
最後に、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されていることを示す。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations [24.211603400355756]
大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
得られたモデル表現の幾何学的特性に対する言語パターンのマッピングにNTPがどう影響するかを考察する。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-08-27T21:46:47Z) - Function Vectors in Large Language Models [45.267194267587435]
自己回帰変換言語モデル(LM)内のベクトルとして入力出力関数を表す単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
論文 参考訳(メタデータ) (2023-10-23T17:55:24Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax [0.0]
LSTMとユニタリ進化リカレントニューラルネットワーク(URN)の両方が,2種類の構文パターンの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-08-11T09:30:49Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。