論文の概要: Schrodinger's Memory: Large Language Models
- arxiv url: http://arxiv.org/abs/2409.10482v2
- Date: Tue, 17 Sep 2024 12:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 13:22:58.002858
- Title: Schrodinger's Memory: Large Language Models
- Title(参考訳): Schrodingerの記憶: 大規模言語モデル
- Authors: Wei Wang, Qing Li,
- Abstract要約: 記憶はすべての人間の活動の基礎である。
LLM(Large Language Models)の開発に伴い、言語能力は人間に匹敵するものになりつつある。
- 参考スコア(独自算出の注目度): 9.487731634351787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr\"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
- Abstract(参考訳): 記憶がすべての人間の活動の基礎であり、記憶がなければ、人々は日々の生活の中でどんなタスクも実行できなくなるでしょう。
LLM(Large Language Models)の開発に伴い、言語能力は人間に匹敵するものになりつつある。
しかし、LLMにはメモリがありますか?
現在のパフォーマンスに基づいて、LLMはメモリを示すように見える。
では、このメモリの基盤となるメカニズムは何ですか?
これまでの研究では、LLMの記憶能力と基礎となる理論の深い研究が欠けていた。
本稿では,LLMのメモリ機構を説明するために,Universal Approximation Theorem (UAT) を用いる。
また,様々なLCMの記憶能力を検証する実験を行い,これらの記憶能力に基づいてその能力を評価する新しい手法を提案する。
LLMメモリはSchr\"odingerのメモリのように動作し、特定のメモリがクエリされたときにのみ観測可能である。
クエリに応答して、モデルがその出力に基づいてメモリを保持するかどうかを判断するのみである。
最後に、人間の脳とLDMの記憶能力を比較し、それらの操作機構の類似点と相違点を明らかにすることで、この概念を拡張した。
関連論文リスト
- $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - Large Language Models Are Semi-Parametric Reinforcement Learning Agents [15.908831573619842]
REMEMBERERは過去のエピソードからの経験をさまざまなタスク目標に活用することができる。
メモリを更新するためにRLEM(Reinforcement Learning with Experience Memory)が導入される。
提案したフレームワークを評価するために,2つのRLタスクセットで実験を行った。
論文 参考訳(メタデータ) (2023-06-09T08:08:18Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。