論文の概要: Language Models Do Not Have Human-Like Working Memory
- arxiv url: http://arxiv.org/abs/2505.10571v3
- Date: Tue, 23 Sep 2025 17:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:37:53.725268
- Title: Language Models Do Not Have Human-Like Working Memory
- Title(参考訳): 言語モデルにはヒューマンライクなワーキングメモリがない
- Authors: Jen-tse Huang, Kaiser Sun, Wenxuan Wang, Mark Dredze,
- Abstract要約: 我々は,Large Language Models (LLM) は人間の認知の基本的側面を欠いていることを示した。
人間の作業記憶は、一貫性のある推論と意思決定を可能にする活発な認知システムである。
我々の研究は、LLMにおけるワーキングメモリ評価のための新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 24.355006642653503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) exhibit remarkable reasoning abilities, we demonstrate that they lack a fundamental aspect of human cognition: working memory. Human working memory is an active cognitive system that enables not only the temporary storage of information but also its processing and utilization, enabling coherent reasoning and decision-making. Without working memory, individuals may produce unrealistic responses, exhibit self-contradictions, and struggle with tasks that require mental reasoning. Existing evaluations using N-back or context-dependent tasks fall short as they allow LLMs to exploit external context rather than retaining the reasoning process in the latent space. We introduce three novel tasks: (1) Number Guessing, (2) Yes-No Deduction, and (3) Math Magic, designed to isolate internal representation from external context. Across seventeen frontier models spanning four major model families, we consistently observe irrational or contradictory behaviors, indicating LLMs' inability to retain and manipulate latent information. Our work establishes a new benchmark for evaluating working memory in LLMs and highlights this limitation as a key bottleneck for advancing reliable reasoning systems. Code and prompts for the experiments are available at https://github.com/penguinnnnn/LLM-Working-Memory.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著な推論能力を示すが、人間の認知の基本的側面であるワーキングメモリが欠如していることを示す。
人間の作業記憶は、情報の一時的な保存だけでなく、その処理と利用を可能にし、一貫性のある推論と意思決定を可能にする、活発な認知システムである。
作業記憶がなければ、個人は非現実的な反応を出し、自己矛盾を示し、精神的な推論を必要とするタスクと闘うことができる。
既存のN-backやコンテキスト依存タスクによる評価は、LLMが潜在空間における推論プロセスを保持するのではなく、外部コンテキストを利用することができるため、不足している。
本稿では,(1)数字案内,(2)Yes-No Deduction,(3)Math Magicの3つの新しいタスクを紹介する。
4つの主要なモデルファミリーにまたがる17のフロンティアモデルにおいて、不合理または矛盾した振る舞いを一貫して観察し、LLMが潜伏情報を保持・操作できないことを示す。
我々の研究は,LLMにおける作業メモリ評価のための新しいベンチマークを確立し,信頼性の高い推論システムを構築する上で重要なボトルネックとして,この制限を強調している。
実験のコードとプロンプトはhttps://github.com/penguinnnnn/LLM-Working-Memoryで公開されている。
関連論文リスト
- Cognitive Workspace: Active Memory Management for LLMs -- An Empirical Study of Functional Infinite Context [0.0]
大きな言語モデル(LLM)は、コンテキスト管理の基本的な制限に直面します。
我々は、従来の検索強化世代(RAG)を超越した新しいパラダイムである認知ワークスペースを提案する。
認知ワークスペースは、(1)意図的な情報キュレーションを伴うアクティブメモリ管理、(2)永続的な作業状態を実現する階層的な認知バッファ、(3)タスク駆動型コンテキスト最適化の3つの革新を通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2025-08-08T16:32:47Z) - The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction [34.86855316803838]
我々は、真の推論とメモリリコールのバランスを制御できるモデル残差ストリームの線形特徴セットを同定する。
これらの推論機能に介入することで、解答生成時に最も関連性の高い問題解決能力をモデルがより正確に活性化できることが示される。
論文 参考訳(メタデータ) (2025-03-29T14:00:44Z) - General Intelligence Requires Reward-based Pretraining [14.057301560895505]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。
しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。
我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:51:12Z) - Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm [9.577716124021029]
GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映していることを示す。
これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、少なくともタスク理解とタスクセットのメンテナンスの制限によるパフォーマンスの低下が少なくとも一部原因であることを示す。
論文 参考訳(メタデータ) (2024-12-24T03:06:52Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。