論文の概要: Beyond Memorization: The Challenge of Random Memory Access in Language
Models
- arxiv url: http://arxiv.org/abs/2403.07805v2
- Date: Wed, 13 Mar 2024 12:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:27.211122
- Title: Beyond Memorization: The Challenge of Random Memory Access in Language
Models
- Title(参考訳): メモリ化を超えて - 言語におけるランダムメモリアクセスの課題
モデル
- Authors: Tongyao Zhu, Qian Liu, Liang Pang, Zhengbao Jiang, Min-Yen Kan, Min
Lin
- Abstract要約: 生成言語モデル(LM)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 59.89551649808259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in Language Models (LMs) have shown their effectiveness
in NLP tasks, particularly in knowledge-intensive tasks. However, the
mechanisms underlying knowledge storage and memory access within their
parameters remain elusive. In this paper, we investigate whether a generative
LM (e.g., GPT-2) is able to access its memory sequentially or randomly. Through
carefully-designed synthetic tasks, covering the scenarios of full recitation,
selective recitation and grounded question answering, we reveal that LMs manage
to sequentially access their memory while encountering challenges in randomly
accessing memorized content. We find that techniques including recitation and
permutation improve the random memory access capability of LMs. Furthermore, by
applying this intervention to realistic scenarios of open-domain question
answering, we validate that enhancing random access by recitation leads to
notable improvements in question answering. The code to reproduce our
experiments can be found at https://github.com/sail-sg/lm-random-memory-access.
- Abstract(参考訳): 言語モデル(LM)の最近の進歩は、NLPタスク、特に知識集約タスクにおいてその効果を示している。
しかし、そのパラメータ内の知識記憶とメモリアクセスのメカニズムは、いまだ解明されていない。
本稿では、生成型LM(eg, GPT-2)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
入念に設計した合成タスクを通じて, 記憶されたコンテンツをランダムにアクセスする際の課題に遭遇しながら, LMが連続的にメモリにアクセスできることを明らかにする。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
さらに、この介入をオープンドメイン質問応答の現実的なシナリオに適用することにより、リサイクリングによるランダムアクセスの強化が質問応答の顕著な改善につながることを検証した。
実験を再現するコードは https://github.com/sail-sg/lm-random-Memory- Access にある。
関連論文リスト
- Empowering Working Memory for Large Language Model Agents [10.258256252648296]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Memory-Augmented LLM Personalization with Short- and Long-Term Memory
Coordination [22.14340866290284]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。
LLMをパーソナライズするためのパラメータ効率の良い微調整スキーマを備えた新しい計算バイオニックメモリ機構を提案する。
論文 参考訳(メタデータ) (2023-09-21T00:34:33Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [4.997673761305335]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - A Memory Model for Question Answering from Streaming Data Supported by
Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。
我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-12T15:46:36Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。