論文の概要: Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability
- arxiv url: http://arxiv.org/abs/2605.22142v1
- Date: Thu, 21 May 2026 08:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.156769
- Title: Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability
- Title(参考訳): 部分観測可能性下における知識グラフの短期記憶伝達
- Authors: Taewoon Kim, Vincent François-Lavet, Michael Cochez,
- Abstract要約: 時間的知識グラフメモリ設定における転送過程について検討する。
観察された各トリプルに対して、エージェントは長期挿入前にそれを保持またはドロップするかを選択する。
長期記憶容量128のRoomKGベンチマークでは、シンボリックおよびニューラルベースラインよりも優れた転送決定を学習した。
- 参考スコア(独自算出の注目度): 7.817226329977399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning under partial observability requires deciding what information to retain, yet most memory-based approaches do not explicitly model short-term-to-long-term transfer of symbolic observations. We study this transfer process in a temporal knowledge-graph memory setting and cast it as a neuro-symbolic value-based decision problem: for each observed triple, the agent chooses whether to keep or drop it before long-term insertion. To handle variable-sized short-term buffers, we use a per-item Q-learning design with shared parameters and a practical temporal-difference update over matched items across consecutive steps. On the RoomKG benchmark at long-term memory capacity 128, learned transfer decisions outperform symbolic and neural baselines, including symbolic baselines with temporal annotations and history-based LSTM/Transformer baselines. Across transfer-policy ablations, a lightweight local short-term-only variant performs best, and step-level behavior shows that the policy keeps navigation- and query-relevant facts while discarding lower-value candidate facts, supporting explicit and interpretable memory decisions under memory constraints.
- Abstract(参考訳): 部分観測可能性下での強化学習では、保持すべき情報を決定する必要があるが、ほとんどのメモリベースのアプローチは、象徴的観測の短期的長期的移動を明示的にモデル化していない。
我々は,この伝達過程を時間的知識グラフメモリ設定で研究し,神経象徴的値に基づく決定問題として捉えた。
可変サイズの短期バッファを扱うために,共有パラメータを用いたQ-ラーニング設計と,連続的なステップで一致した項目に対する時間差更新を行う。
長期メモリ容量128のRoomKGベンチマークでは、時間アノテーション付きシンボルベースラインや履歴ベースのLSTM/Transformerベースラインを含む、シンボリックおよびニューラルベースラインよりも優れた転送決定が学習されている。
トランスファー・ポリシーの廃止によって、軽量なローカルな短期限定型が最善を尽くし、ステップレベルの動作は、このポリシーがナビゲーションとクエリ関連の事実を維持しつつ、低い値の候補事実を破棄し、メモリ制約の下で明示的で解釈可能なメモリ決定をサポートすることを示している。
関連論文リスト
- Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios [33.8882826707344]
MemGroundは、リッチでゲーミフィケーションされたインタラクティブシナリオを基盤とした、厳格な長期メモリベンチマークである。
メモリ利用と行動軌跡の両方を包括的に定量化するために,多次元計量スイートを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:57:39Z) - Learning to Remember: End-to-End Training of Memory Agents for Long-Context Reasoning [18.621823772319154]
本稿では,メモリ操作と質問応答を一つのポリシーで統一するエンドツーエンド強化学習フレームワークを提案する。
UMAは、グローバルコンテキストのためのコンパクトなコアサマリと、明示的なCRUDをサポートする構造化メモリバンクという、二重メモリ表現を維持している。
Ledger-QA、Test-Time Learning、そしてCurcurate Retrievalにまたがる13のデータセットのうち、UMAは動的推論と学習タスクの長いコンテキストとRAGベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-13T16:54:23Z) - Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning [44.94110361062394]
実世界の意思決定は、安定かつ適応性のあるメモリに依存する。
既存の強化学習ベンチマークとメモリ拡張エージェントは、主に保持に焦点を当てている。
部分的な可観測性の下で連続的なメモリ更新を明示的にテストするベンチマークを導入する。
論文 参考訳(メタデータ) (2026-01-21T15:27:23Z) - Gated Differentiable Working Memory for Long-Context Language Modeling [80.27483324685434]
本稿では,Gdwm(Gated Differentiable Working Memory)を提案する。
ZeroSCROLLS と LongBench v2 の実験では、Gdwm は均一なベースラインよりも 4$times$ の勾配ステップで同等または優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-19T10:00:33Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Preference-Aware Memory Update for Long-Term LLM Agents [27.776042930733784]
LLMベースのエージェントの推論能力に影響を与える重要な要因の1つは、長期記憶を活用する能力である。
本稿では、動的かつパーソナライズされたメモリリファインメントを実現するためのPreference-Aware Memory Update Mechanism (PAMU)を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:49:35Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。