論文の概要: Quantifying Memory Use in Reinforcement Learning with Temporal Range
- arxiv url: http://arxiv.org/abs/2512.06204v1
- Date: Fri, 05 Dec 2025 22:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.235862
- Title: Quantifying Memory Use in Reinforcement Learning with Temporal Range
- Title(参考訳): 時間領域による強化学習におけるメモリ使用量の定量化
- Authors: Rodney Lafuente-Mercado, Daniela Rus, T. Konstantin Rusch,
- Abstract要約: 時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
- 参考スコア(独自算出の注目度): 51.98491034847041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much does a trained RL policy actually use its past observations? We propose \emph{Temporal Range}, a model-agnostic metric that treats first-order sensitivities of multiple vector outputs across a temporal window to the input sequence as a temporal influence profile and summarizes it by the magnitude-weighted average lag. Temporal Range is computed via reverse-mode automatic differentiation from the Jacobian blocks $\partial y_s/\partial x_t\in\mathbb{R}^{c\times d}$ averaged over final timesteps $s\in\{t+1,\dots,T\}$ and is well-characterized in the linear setting by a small set of natural axioms. Across diagnostic and control tasks (POPGym; flicker/occlusion; Copy-$k$) and architectures (MLPs, RNNs, SSMs), Temporal Range (i) remains small in fully observed control, (ii) scales with the task's ground-truth lag in Copy-$k$, and (iii) aligns with the minimum history window required for near-optimal return as confirmed by window ablations. We also report Temporal Range for a compact Long Expressive Memory (LEM) policy trained on the task, using it as a proxy readout of task-level memory. Our axiomatic treatment draws on recent work on range measures, specialized here to temporal lag and extended to vector-valued outputs in the RL setting. Temporal Range thus offers a practical per-sequence readout of memory dependence for comparing agents and environments and for selecting the shortest sufficient context.
- Abstract(参考訳): トレーニングされたRLポリシーは、過去の観測を実際にどの程度使うのか?
本稿では、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を処理し、重み付け平均ラグで要約するモデル非依存の計量である「emph{Temporal Range}」を提案する。
テンポラルレンジは、ジャコビアンブロック $\partial y_s/\partial x_t\in\mathbb{R}^{c\times d}$ から逆モードの自動微分によって計算される。
診断・制御タスク(POPGym; flicker/occlusion; Copy-$k$)とアーキテクチャ(MLPs, RNNs, SSMs)
(i) 完全に観察された制御では小さいままである。
(ii) Copy-$k$, and のタスクのグラウンドトルースラグでスケールする
(iii)ウィンドウアブレーションによって確認されたように、ほぼ最適リターンに必要な最小履歴ウィンドウと整合する。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
我々の公理的治療は, 時間ラグに特化し, RL設定でベクトル値出力にまで拡張された最近の範囲測度に関する研究に基づいている。
したがって、Temporal Rangeは、エージェントと環境を比較し、最も短いコンテキストを選択するために、メモリ依存の実際のシーケンスごとの読み出しを提供する。
関連論文リスト
- Kad: A Framework for Proxy-based Test-time Alignment with Knapsack Approximation Deferral [6.949966663998242]
大きな言語モデル(LLM)は、ダウンストリームのタスク要求とスタイルの好みに従うために、さらに整合性を必要とする。
LLMのサイズが拡大するにつれて、アライメント手順の計算コストは違法に増加する。
本稿では,プロキシベースのテスト時間アライメントによるコスト回避手法を提案する。
論文 参考訳(メタデータ) (2025-10-30T21:38:45Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。