論文の概要: Characterizing Verbatim Short-Term Memory in Neural Language Models
- arxiv url: http://arxiv.org/abs/2210.13569v1
- Date: Mon, 24 Oct 2022 19:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:32:00.813837
- Title: Characterizing Verbatim Short-Term Memory in Neural Language Models
- Title(参考訳): ニューラルネットワークモデルにおける動詞の短期記憶特性
- Authors: Kristijan Armeni, Christopher Honey, Tal Linzen
- Abstract要約: 我々は、以前テキストで発生した正確な単語を言語モデルで検索できるかどうかを検証した。
変換器は最初のリストから名詞の同一性と順序の両方を検索した。
先行トークンをインデクシングする能力は、学習された注意パターンに依存する。
- 参考スコア(独自算出の注目度): 19.308884420859027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a language model is trained to predict natural language sequences, its
prediction at each moment depends on a representation of prior context. What
kind of information about the prior context can language models retrieve? We
tested whether language models could retrieve the exact words that occurred
previously in a text. In our paradigm, language models (transformers and an
LSTM) processed English text in which a list of nouns occurred twice. We
operationalized retrieval as the reduction in surprisal from the first to the
second list. We found that the transformers retrieved both the identity and
ordering of nouns from the first list. Further, the transformers' retrieval was
markedly enhanced when they were trained on a larger corpus and with greater
model depth. Lastly, their ability to index prior tokens was dependent on
learned attention patterns. In contrast, the LSTM exhibited less precise
retrieval, which was limited to list-initial tokens and to short intervening
texts. The LSTM's retrieval was not sensitive to the order of nouns and it
improved when the list was semantically coherent. We conclude that transformers
implemented something akin to a working memory system that could flexibly
retrieve individual token representations across arbitrary delays; conversely,
the LSTM maintained a coarser and more rapidly-decaying semantic gist of prior
tokens, weighted toward the earliest items.
- Abstract(参考訳): 自然言語列を予測するために言語モデルが訓練されると、各時点におけるその予測は、事前の文脈の表現に依存する。
事前のコンテキストに関するどのような情報が言語モデルで取得できるのか?
我々は、言語モデルが以前にテキストで発生した正確な単語を検索できるかどうかをテストした。
このパラダイムでは、言語モデル(トランスフォーマーとLSTM)が英語のテキストを処理し、名詞のリストが2回発生した。
検索は,第1リストから第2リストへのサブプライムの減少として運用した。
トランスフォーマーが最初のリストから名詞のアイデンティティと順序の両方を取り戻したことがわかった。
さらに、変圧器の回収は、より大きなコーパスとより大きなモデル深度で訓練されたときに著しく強化された。
最後に、事前トークンをインデックスする能力は、学習した注意パターンに依存する。
対照的に、LSTMは、リスト初期トークンや短いインターベンションテキストに限られる、精度の低い検索結果を示した。
LSTMの検索は名詞の順序に敏感ではなく,意味論的に一貫性のあるリストであった。
その結果、トランスフォーマーは、任意の遅延で個々のトークン表現を柔軟に検索できるワーキングメモリシステムに類似するものを実装しており、逆にLSTMは、先行トークンの粗いセマンティックガイストを最初期の項目に重み付けして維持した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive
Bias to Sequence-to-sequence Models [23.21767225871304]
シークエンス・ツー・シークエンス(seq2seq)モデルは、構文変換を行う際に階層性に敏感な方法で一般化できないことが多い。
事前学習されたSeq2seqモデルは、構文変換を行う際に階層的に一般化するが、構文変換でスクラッチから訓練されたモデルはそうではない。
論文 参考訳(メタデータ) (2022-03-17T15:46:53Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Predictive Representation Learning for Language Modeling [33.08232449211759]
副次的情報の相関がLSTM表現に現れるが、それらは暗黙的に監督された予測タスクの一部ではない。
予測表現学習(PRL)を提案し,LSTMを明示的に制約し,特定の予測を符号化する。
論文 参考訳(メタデータ) (2021-05-29T05:03:47Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。