論文の概要: How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization
on Natural Text
- arxiv url: http://arxiv.org/abs/2010.00363v1
- Date: Thu, 1 Oct 2020 12:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:01:15.350995
- Title: How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization
on Natural Text
- Title(参考訳): LSTMがいかに構文を符号化するか: 文脈ベクトルの探索と自然文の半量子化
- Authors: Chihiro Shibata, Kei Uchiumi, Daichi Mochihashi
- Abstract要約: 構文構造が暗黙的に与えられる言語モデルを学ぶ。
内部ゲートの出力である文脈更新ベクトルは、ほぼ2進あるいは3進の値に量子化されていることを示す。
文脈ベクトルのいくつかの次元について、それらのアクティベーションは句構造の深さと非常に相関していることを示す。
また、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されることを示す。
- 参考スコア(独自算出の注目度): 2.881185491084005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Short-Term Memory recurrent neural network (LSTM) is widely used and
known to capture informative long-term syntactic dependencies. However, how
such information are reflected in its internal vectors for natural text has not
yet been sufficiently investigated. We analyze them by learning a language
model where syntactic structures are implicitly given. We empirically show that
the context update vectors, i.e. outputs of internal gates, are approximately
quantized to binary or ternary values to help the language model to count the
depth of nesting accurately, as Suzgun et al. (2019) recently show for
synthetic Dyck languages. For some dimensions in the context vector, we show
that their activations are highly correlated with the depth of phrase
structures, such as VP and NP. Moreover, with an $L_1$ regularization, we also
found that it can accurately predict whether a word is inside a phrase
structure or not from a small number of components of the context vector. Even
for the case of learning from raw text, context vectors are shown to still
correlate well with the phrase structures. Finally, we show that natural
clusters of the functional words and the part of speeches that trigger phrases
are represented in a small but principal subspace of the context-update vector
of LSTM.
- Abstract(参考訳): long short-term memory recurrent neural network (lstm) は、長期的な構文依存を捉えるために広く使われている。
しかし、そのような情報が自然テキストの内部ベクトルにどのように反映されているかはまだ十分に研究されていない。
構文構造が暗黙的に与えられる言語モデルを学習して分析する。
Suzgun et al. (2019)が最近発表したように、内部ゲートの出力である文脈更新ベクトルは、言語モデルがネストの深さを正確にカウントするのを助けるために、ほぼ2進または3進の値に量子化されている。
文脈ベクトルのいくつかの次元について、それらのアクティベーションは、VPやNPのようなフレーズ構造の深さと非常に相関していることを示す。
さらに,$L_1$正規化により,単語が句構造内にあるか否かを,文脈ベクトルの少数の成分から正確に予測できることがわかった。
生のテキストから学ぶ場合でさえ、文脈ベクトルはフレーズ構造とよく相関していることが示される。
最後に、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されていることを示す。
関連論文リスト
- MRL Parsing Without Tears: The Case of Hebrew [14.104766026682384]
形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。
決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。
この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:54:33Z) - Function Vectors in Large Language Models [45.267194267587435]
自己回帰変換言語モデル(LM)内のベクトルとして入力出力関数を表す単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
論文 参考訳(メタデータ) (2023-10-23T17:55:24Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [61.305218287797025]
線形リカレントニューラルネットワークがトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクで長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax [0.0]
LSTMとユニタリ進化リカレントニューラルネットワーク(URN)の両方が,2種類の構文パターンの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-08-11T09:30:49Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。