論文の概要: MATE: Solving Contextual Markov Decision Processes with Memory of Accumulated Transition Embeddings
- arxiv url: http://arxiv.org/abs/2605.17431v1
- Date: Sun, 17 May 2026 12:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.014762
- Title: MATE: Solving Contextual Markov Decision Processes with Memory of Accumulated Transition Embeddings
- Title(参考訳): MATE: 累積遷移埋め込みを記憶した文脈マルコフ決定過程の解決
- Authors: Himchan Hwang, Hyeokju Jeong, Gene Chung, Seungyeon Kim, Sangwoong Yoon, Frank Chongwoo Park,
- Abstract要約: MATEはコンテキストマルコフ決定プロセスを解決するためのメモリアーキテクチャである。
MATEは、Transformerのステップ単位のロールアウトコストの増加と、リカレントニューラルネットワークに関連する勾配問題を回避する。
- 参考スコア(独自算出の注目度): 5.878310782811742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MATE, a simple yet effective memory architecture for solving Contextual Markov Decision Processes (CMDPs), a family of MDPs parameterized by an unobserved context. In CMDPs, an optimal agent can adapt online by maintaining the posterior belief over contexts. MATE replaces this intractable posterior with a sum-aggregated memory, leveraging the posterior's permutation invariance to retain provably sufficient expressiveness. Compared to prior memory architectures, MATE avoids the growing per-step rollout cost of Transformers and the gradient issues commonly associated with Recurrent Neural Networks (RNNs). Extensive evaluations across diverse benchmarks demonstrate that MATE provides clear computational advantages while achieving performance comparable to standard sequence-model baselines.
- Abstract(参考訳): 本稿では, 文脈マルコフ決定過程(CMDP)を解くための, 単純かつ効果的なメモリアーキテクチャであるMATEを提案する。
CMDPでは、最適エージェントは文脈に対する後続の信念を維持することで、オンラインで適応することができる。
MATEは、この難解な後部を合計集約メモリに置き換え、後部の置換不変性を利用して、十分な表現性を維持する。
以前のメモリアーキテクチャと比較して、MATEはトランスフォーマーのステップ単位のロールアウトコストの増加と、リカレントニューラルネットワーク(RNN)に共通する勾配問題を回避する。
様々なベンチマークによる広範囲な評価は、MATEが標準的なシーケンスモデルベースラインに匹敵する性能を達成しつつ、明確な計算上の優位性を提供することを示している。
関連論文リスト
- Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - Learning Over-Relaxation Policies for ADMM with Convergence Guarantees [0.1784233255402269]
本稿では,関心のある問題クラスのパフォーマンス向上のために,緩和パラメータのオンライン更新を学習することを提案する。
この選択は、緩和がペナルティ更新に関連する行列化を起こさないため、OSQPのようなアーキテクチャでは計算的に魅力的である。
その結果,OSQPをベースラインとした反復数とウォールクロック時間の両方の改善が得られた。
論文 参考訳(メタデータ) (2026-04-29T17:45:52Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Gated Differentiable Working Memory for Long-Context Language Modeling [80.27483324685434]
本稿では,Gdwm(Gated Differentiable Working Memory)を提案する。
ZeroSCROLLS と LongBench v2 の実験では、Gdwm は均一なベースラインよりも 4$times$ の勾配ステップで同等または優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-19T10:00:33Z) - EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文 参考訳(メタデータ) (2025-03-28T07:26:37Z) - Simplification of Risk Averse POMDPs with Performance Guarantees [6.129902017281406]
部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。
この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。
POMDPの最適解を計算することは、一般に計算的に計算可能である。
我々は,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発した。
論文 参考訳(メタデータ) (2024-06-05T07:05:52Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。