論文の概要: Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
- arxiv url: http://arxiv.org/abs/2508.04282v1
- Date: Wed, 06 Aug 2025 10:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.674784
- Title: Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
- Title(参考訳): メモリ拡張RLに挑戦する合成PMDP:メモリ要求構造モデリング
- Authors: Yongyi Wang, Lingfeng Li, Bozhou Chen, Ang Li, Hanyu Liu, Qirui Zheng, Xionghui Yang, Wenxin Li,
- Abstract要約: 近年、メモリ拡張強化学習(RL)アルゴリズムのベンチマークが開発されている。
エージェントが過去の観察に依存して意思決定を行うPOMDP環境。
本研究は,POMDPの解決におけるメモリ拡張RLの課題を明らかにし,POMDP環境の分析と設計のためのガイドラインを提供し,RLタスクにおけるメモリモデル選択のための実証的サポートを提供する。
- 参考スコア(独自算出の注目度): 6.279650855031215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has developed benchmarks for memory-augmented reinforcement learning (RL) algorithms, providing Partially Observable Markov Decision Process (POMDP) environments where agents depend on past observations to make decisions. While many benchmarks incorporate sufficiently complex real-world problems, they lack controllability over the degree of challenges posed to memory models. In contrast, synthetic environments enable fine-grained manipulation of dynamics, making them critical for detailed and rigorous evaluation of memory-augmented RL. Our study focuses on POMDP synthesis with three key contributions: 1. A theoretical framework for analyzing POMDPs, grounded in Memory Demand Structure (MDS), transition invariance, and related concepts; 2. A methodology leveraging linear process dynamics, state aggregation, and reward redistribution to construct customized POMDPs with predefined properties; 3. Empirically validated series of POMDP environments with increasing difficulty levels, designed based on our theoretical insights. Our work clarifies the challenges of memory-augmented RL in solving POMDPs, provides guidelines for analyzing and designing POMDP environments, and offers empirical support for selecting memory models in RL tasks.
- Abstract(参考訳): 近年の研究では、メモリ拡張強化学習(RL)アルゴリズムのベンチマークが開発されており、エージェントが過去の観察に頼って意思決定を行う部分観測可能なマルコフ決定プロセス(POMDP)環境を提供している。
多くのベンチマークには十分な複雑な実世界の問題が含まれているが、メモリモデルに生じる課題の程度を制御できない。
対照的に、合成環境はダイナミックスのきめ細かい操作を可能にし、メモリ拡張RLの詳細な厳密な評価に重要である。
本研究は,POMDPの合成に主眼を置いている。(1)記憶要求構造(MDS)に基づくPOMDPの解析フレームワーク,遷移不変性,および関連する概念。
2 線形プロセスのダイナミクス、状態集約及び報酬再分配を活用して、予め定義された特性を有するカスタマイズされたPOMDPを構築する方法。
難易度が増大する一連のPOMDP環境を理論的考察に基づいて実証的に検証した。
本研究は,POMDPの解決におけるメモリ拡張RLの課題を明らかにし,POMDP環境の分析と設計のためのガイドラインを提供し,RLタスクにおけるメモリモデル選択のための実証的サポートを提供する。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文 参考訳(メタデータ) (2023-07-16T15:44:58Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Memory-based Deep Reinforcement Learning for POMDP [7.137228786549488]
長期記憶に基づく双発遅延深度決定政策グラデーション(LSTM-TD3)
その結果, 部分観測可能なMDPに対処する上で, メモリコンポーネントの顕著な利点が示された。
論文 参考訳(メタデータ) (2021-02-24T15:25:13Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs [33.07594285100664]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。