論文の概要: STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
- arxiv url: http://arxiv.org/abs/2605.06527v1
- Date: Thu, 07 May 2026 16:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.999102
- Title: STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
- Title(参考訳): STALE:LLMのエージェントは、記憶がいつ長くないのかを知ることができるか?
- Authors: Hanxiang Chao, Yihan Bai, Rui Sheng, Tianle Li, Yushi Sun,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、コヒーレントで長期的なパーソナライズされたメモリを維持することがますます期待されている。
現在のベンチマークは、主に静的な事実検索を計測し、新しい証拠が現れたときに保存された信念を更新する能力を見下ろしている。
専門家が検証した400の競合シナリオのベンチマークであるSTALEを紹介します。
CUPMemは,構造化状態統合と伝搬認識探索による書き込み時間リビジョンを強化するプロトタイプである。
- 参考スコア(独自算出の注目度): 5.361950931863979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、コヒーレントで長期的なパーソナライズドメモリを維持することがますます期待されているが、現在のベンチマークは主に静的事実検索を計測し、新しいエビデンスが発生した時に記憶された信念を更新する能力を見越している。
Inlicit Conflict: 後続の観察では、明示的な否定なしに初期のメモリを無効にし、コンテキスト推論とコモンセンス推論を検知する必要がある。
この能力を厳格に評価するために、STALE(Sert-validated conflict scenarios, 400 expert-validated conflict scenarios)を紹介。
本稿では,ステートレゾリューション(事前の信念が時代遅れであると判断する),プリミズ抵抗(古い状態を誤って前提とするクエリを拒絶する),インプシットポリシー適応(下流行動に更新状態を積極的に適用する)の3次元探索フレームワークを提案する。
フロンティアのLSMと特殊なメモリフレームワークを体系的に評価すると、更新された証拠を回収し、それに作用する間に広範囲のギャップが見られ、最も優れた評価モデルでさえ、全体的な精度は55.2%に過ぎなかった。
モデルはしばしば、ユーザのクエリに埋め込まれた時代遅れの仮定を受け入れ、ユーザの状態の1つの側面における変更が関連するメモリを無効にするかどうかを認識するのに苦労する。
状態認識メモリの初期ベースラインを確立するため,構造化された状態統合と伝搬認識検索による書き込み時間修正を強化するプロトタイプCUPMemを提示し,明示的な状態適応が堅牢なエージェントメモリの有望な方向であることを示唆した。
関連論文リスト
- Belief Memory: Agent Memory Under Partial Observability [56.41506249481312]
本稿では,メモリパラダイムを観測毎に1つの結論にシフトし,その確率で複数の結論を導出するBeliefMemを提案する。
BeliefMemは決定論的パラダイムが破棄されるという不確実性を保ち、エージェントが高い信頼を持って行動することを可能にする。
LoCoMoとALFWorldベンチマークの実証的な評価は、限られたデータであっても、BeliefMemが最高の平均パフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-05-07T02:03:13Z) - ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文 参考訳(メタデータ) (2026-04-27T10:45:51Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - The Model Agreed, But Didn't Learn: Diagnosing Surface Compliance in Large Language Models [12.743453676247903]
大規模言語モデル(LLM)は、膨大な世界の知識をパラメトリックメモリとして内部化するが、必然的にソースコーパスの不安定さと誤りを継承する。
知識編集は、再トレーニングせずに記憶を外科的に修正するための重要なパラダイムを提供する。
本研究では,文脈内学習環境下での識別的自己評価をモデルとした診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T15:20:41Z) - LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection [11.420370070522205]
誤情報検出において、現実世界の「戦争の霧」をシミュレートするベンチマークであるLiveFactを紹介する。
LiveFactは、動的で時間的なエビデンスセットを使用して、進化する不完全な情報で推論する能力に関するモデルを評価する。
テストでは、Qwen3-235B-A22BのようなオープンソースのMixture-of-Expertsモデルが、現在ではプロプライエタリな最先端システムに適合または性能を向上していることを示している。
論文 参考訳(メタデータ) (2026-04-06T16:20:47Z) - Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers [0.42061757959666934]
大きな言語モデル(LLM)エージェントは、単一のコンテキストウィンドウが小さすぎて何が起きているのかをキャプチャできないような環境で、ますます運用される。
メモリはステートレステキストジェネレータを真に適応的なエージェントに変える。
この調査は、メモリがどのように設計され、実装され、現代のLCMベースのエージェントで評価されるかという構造化された説明を提供する。
論文 参考訳(メタデータ) (2026-03-08T15:08:01Z) - Preserving Historical Truth: Detecting Historical Revisionism in Large Language Models [66.75310318710073]
textttHistoricalMisinfoは45ドル(約4,400円)の国から50ドル(約5,800円)のコンテストイベントを収集したデータセットです。
実世界の利用を近似するために、一般的な通信設定を反映したプロンプトシナリオを11ドルで、各イベントをインスタンス化する。
論文 参考訳(メタデータ) (2026-02-19T15:05:10Z) - Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents [19.76627324918285]
我々は,cue-trigger セマンティック・ディコネクションの下で認知記憶を評価するためのベンチマークである textbfLoCoMo-Plus を紹介する。
従来の文字列マッチングの指標と明示的なタスクタイププロンプトが,このようなシナリオと一致していないことを示す。
多様なバックボーンモデル、検索ベースの方法、メモリシステムによる実験は、認知記憶が依然として困難であることを証明している。
論文 参考訳(メタデータ) (2026-02-11T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。