論文の概要: ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08064v2
- Date: Wed, 15 Apr 2026 12:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.347767
- Title: ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
- Title(参考訳): ImplicitMemBench:大規模言語モデルにおける無意識行動適応の測定
- Authors: Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong,
- Abstract要約: LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
- 参考スコア(独自算出の注目度): 60.14219417402433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".
- Abstract(参考訳): LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
効果的なアシスタントは、学習手順を自動適用するか、明示的なリマインダーなしで失敗する行為を避ける必要がある。
IndicitMemBenchは、非宣言的記憶の標準的な認知科学のアカウントから抽出された3つの認知的基礎構造から暗黙的記憶を評価する最初の体系的ベンチマークである。プロシージャメモリ(干渉後のワンショットスキル獲得)、プライミング(ペア実験/制御インスタンスによるテーマ駆動バイアス)、古典的条件付け(Conditioned Stimulus--Unconditioned Stimulus (CS-US))の関連性は、最初の決定を形作る。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
モデル全体の66%を超えず、トップパフォーマーのDeepSeek-R1 (65.3%)、Qwen3-32B (64.1%)、GPT-5 (63.0%)は人間のベースラインよりはるかに低い。
分析により、劇的な漸近(禁制17.6%対嗜好75.0%)と、パラメータスケーリング以上のアーキテクチャ革新を必要とする普遍的なボトルネックが明らかになった。
ImplicitMemBenchは、"どのエージェントがリコールしたか"から"それらが自動的に実行するもの"への評価を再設定する。
関連論文リスト
- Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures [0.6091702876917279]
Kumihoは、形式的信念修正セマンティクスに基づくグラフネイティブな認知記憶アーキテクチャである。
アーキテクチャは、二重ストアモデル(Redisワーキングメモリ、Neo4j長期グラフ)を実装し、ハイブリッドフルテキストとベクトル検索を備える。
論文 参考訳(メタデータ) (2026-03-18T00:59:49Z) - MemPO: Self-Memory Policy Optimization for Long-Horizon Agents [52.00646524941419]
既存のメソッドは通常、外部メモリモジュールを導入し、格納されたメモリから関連する情報を検索する。
本稿では,自己記憶ポリシー最適化アルゴリズム(MemPO)を提案する。
MemPOはF1の絶対スコアが25.98%、SOTAベースラインが7.1%、トークン使用率が67.58%、73.12%である。
論文 参考訳(メタデータ) (2026-02-28T14:43:02Z) - The Algorithmic Self-Portrait: Deconstructing Memory in ChatGPT [17.579565226391146]
実世界の80人のChatGPTユーザの2,050個のメモリエントリを分析した。
私たちのデータセットの96%のメモリは、会話システムによって一方的に生成されます。
大部分のメモリ(84%)は、ユーザコンテキストで直接ベースになっています。
論文 参考訳(メタデータ) (2026-02-01T21:39:36Z) - HiNS: Hierarchical Negative Sampling for More Comprehensive Memory Retrieval Embedding Model [19.485780251890322]
既存のトレーニングデータ構築は、負のサンプルの階層的難しさという、重大な制限を見落としている。
本稿では, 負のサンプル難易度を明示的にモデル化し, 経験的基礎となる負の比率を組み込む, 基本データ構築フレームワークHiNSを提案する。
論文 参考訳(メタデータ) (2026-01-21T10:39:48Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - Early Detection and Reduction of Memorisation for Domain Adaptation and Instruction Tuning [4.145513103869504]
我々は、一般的な評価データセット上で1.4B-70BパラメータにまたがるPythia、Llama3、Mistralモデルを微調整する。
最初の数回は暗記が劇的に増加し、しばしば検証の難易度や評価性能が最適化される前に顕著に増加することが判明した。
我々は,n-gram-aware loss regulariserを導入し,最大40%までテストしたモデルファミリー全体の記憶を減少させることを示した。
論文 参考訳(メタデータ) (2025-10-13T13:12:46Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。