論文の概要: Honest Lying: Understanding Memory Confabulation in Reflexive Agents
- arxiv url: http://arxiv.org/abs/2605.29463v2
- Date: Sun, 31 May 2026 05:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.733085
- Title: Honest Lying: Understanding Memory Confabulation in Reflexive Agents
- Title(参考訳): Honest Lying: 反射性エージェントにおける記憶の調和を理解する
- Authors: Prakhar Dixit, Sadia Kamal, Tim Oates,
- Abstract要約: 反射型エージェントは自己生成反射を記憶として頼り、エージェントが自身の障害を正確に診断できると暗黙的に仮定する。
ALFWorldとHumanEvalの間では、エージェントはタスクの自信はあるが誤った解釈を格納し、環境が毎回正しいタスクにリセットされたとしても、試行を通してそれらに取り組み続ける。
- 参考スコア(独自算出の注目度): 3.6322801593778546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reflexion-style agents rely on self-generated reflections as memory, implicitly assuming that agents can accurately diagnose their own failures. We show that this assumption can fail systematically: across ALFWorld and HumanEval, agents store confident but incorrect interpretations of the task and continue acting on them across trials, even though the environment resets to the correct task each time. We call this failure mode memory confabulation and introduce the Reflection Repetition Rate (RRR), a log-based metric that detects repeated reliance on incorrect reflective content. Using RRR, we identify 16 frozen environments in ALFWorld, where 0 of 121 reflections mention the correct target object, and 4 analogous cases in HumanEval. Our mitigation replaces open-ended self-diagnosis with programmatic extraction of trajectory-level failure signals, increasing correct object mention from 0% to 86%, reducing RRR from 0.64 to 0.10, and solving 3 of 16 frozen ALFWorld environments, suggesting that reflective memory can reinforce false beliefs rather than correct them.
- Abstract(参考訳): 反射型エージェントは自己生成反射を記憶として頼り、エージェントが自身の障害を正確に診断できると暗黙的に仮定する。
ALFWorldとHumanEvalの間では、エージェントはタスクの自信はあるが誤った解釈を格納し、環境が毎回正しいタスクにリセットされたとしても、試行を通してそれらに取り組み続ける。
我々は、この障害モードメモリの畳み込みと、不正なリフレクティブコンテンツへの繰り返し依存を検出するログベースのメトリクスであるリフレクション繰り返しレート(RRR)を導入している。
RRRを用いて、ALFWorldの16の凍結環境を特定し、0の121の反射が正しい対象物に言及し、HumanEvalでは4つの類似したケースを同定した。
我々の緩和は、オープンエンド自己診断を、トラジェクトリレベルの障害信号のプログラム的抽出に置き換え、正しい対象の言及を0%から86%に増加させ、RRRを0.64から0.10に減少させ、16の凍結ALFWorld環境の3つを解決し、反射記憶はそれらを修正するよりも偽の信念を強化することができることを示唆している。
関連論文リスト
- Belief Memory: Agent Memory Under Partial Observability [56.41506249481312]
本稿では,メモリパラダイムを観測毎に1つの結論にシフトし,その確率で複数の結論を導出するBeliefMemを提案する。
BeliefMemは決定論的パラダイムが破棄されるという不確実性を保ち、エージェントが高い信頼を持って行動することを可能にする。
LoCoMoとALFWorldベンチマークの実証的な評価は、限られたデータであっても、BeliefMemが最高の平均パフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-05-07T02:03:13Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Negation is Not Semantic: Diagnosing Dense Retrieval Failure Modes for Trade-offs in Contradiction-Aware Biomedical QA [1.0330395403064265]
大言語モデル (LLMs) は質問応答において強い能力を示してきたが、検証不可能なクレームを生成する傾向は、臨床環境において重大なリスクをもたらす。
これらのリスクを軽減するため、TREC 2025 BioGenトラックは、矛盾する証拠を明示的に提示する根拠のついた回答を義務付けている。
本稿では、SciFactデータセットを用いて、検索アーキテクチャを体系的に最適化するプロキシベースの開発フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-18T10:35:44Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - GLOVE: Global Verifier for LLM Memory-Environment Realignment [15.456830820378656]
本稿では,相対的な真理の概念を確立することにより,大規模言語モデルメモリシステムの設計次元を新たに導入するフレームワークを提案する。
GLOVEは、地味な監督やモデルのイントロスペクションに強く依存することなく、メモリの検証と更新を行うことで、メモリ環境の調整を可能にする。
以上の結果から,GLOVEはエージェントの成功率を大幅に改善し,自己進化可能な認知エージェントへの堅牢な経路が示唆された。
論文 参考訳(メタデータ) (2026-01-27T06:32:05Z) - A Systematic Analysis of Large Language Models with RAG-enabled Dynamic Prompting for Medical Error Detection and Correction [8.312687115594512]
我々は、ゼロショットプロンプト、ランダムな例による静的プロンプト、検索強化された動的プロンプトを評価する。
精度,リコール,偽陽性率 (FPR) , ROUGE-1, BLEURT, BERTScore を用いて誤差補正を行った。
論文 参考訳(メタデータ) (2025-11-25T02:40:49Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。