論文の概要: Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers
- arxiv url: http://arxiv.org/abs/2406.18400v1
- Date: Wed, 26 Jun 2024 14:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:09:50.405810
- Title: Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers
- Title(参考訳): LLMはゾウの夢(そうは言っていない)を夢見るか? : トランスフォーマーにおける潜在概念関連と連想記憶
- Authors: Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam,
- Abstract要約: LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。
LLMは、コンテキスト内の特定のトークンが事実を取得する手がかりとなる連想記憶モデルのように振る舞う。
- 参考スコア(独自算出の注目度): 40.964584197528175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have the capacity to store and recall facts. Through experimentation with open-source models, we observe that this ability to retrieve facts can be easily manipulated by changing contexts, even without altering their factual meanings. These findings highlight that LLMs might behave like an associative memory model where certain tokens in the contexts serve as clues to retrieving facts. We mathematically explore this property by studying how transformers, the building blocks of LLMs, can complete such memory tasks. We study a simple latent concept association problem with a one-layer transformer and we show theoretically and empirically that the transformer gathers information using self-attention and uses the value matrix for associative memory.
- Abstract(参考訳): LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。
オープンソースモデルによる実験により,事実を検索する能力は,事実の意味を変えることなく,文脈を変えることで容易に操作できることが観察された。
これらの知見は、LLMは、コンテキスト内の特定のトークンが事実を検索するための手がかりとなる連想記憶モデルのように振る舞う可能性があることを浮き彫りにしている。
我々は,LLMの構成要素であるトランスフォーマーが,そのようなメモリタスクをいかに完了させるかを研究することによって,この特性を数学的に探索する。
単層変圧器を用いた単純な潜伏概念関連問題について検討し、この変圧器が自己アテンションを用いて情報を収集し、その値行列を連想記憶に用いることを理論的かつ実証的に示す。
関連論文リスト
- Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。
本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory [29.822360561150475]
メモリを持つ大規模言語モデル(LLM)は計算的に普遍的である。
我々は、複雑なマルチホップ推論のためのシンボリックメモリを備えたLLMを増強するために、現代のコンピュータアーキテクチャからインスピレーションを得る。
複雑な推論を必要とする合成データセットにおけるメモリフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2023-06-06T17:58:24Z) - Mention Memory: incorporating textual knowledge into Transformers
through entity mention attention [21.361822569279003]
本稿では,大規模テキストコーパスの半パラメトリック表現を,事実知識の源泉としてトランスフォーマーモデルに統合することを提案する。
提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。
ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで高いパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-10-12T17:19:05Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。