論文の概要: Memory Allocation in Resource-Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.17263v1
- Date: Mon, 09 Jun 2025 21:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.836358
- Title: Memory Allocation in Resource-Constrained Reinforcement Learning
- Title(参考訳): 資源制約強化学習におけるメモリ割り当て
- Authors: Massimiliano Tamborski, David Abel,
- Abstract要約: リソースの制約は、学習と意思決定の両方を根本的に変えることができます。
標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。
特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか?
- 参考スコア(独自算出の注目度): 8.866141780407903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resource constraints can fundamentally change both learning and decision-making. We explore how memory constraints influence an agent's performance when navigating unknown environments using standard reinforcement learning algorithms. Specifically, memory-constrained agents face a dilemma: how much of their limited memory should be allocated to each of the agent's internal processes, such as estimating a world model, as opposed to forming a plan using that model? We study this dilemma in MCTS- and DQN-based algorithms and examine how different allocations of memory impact performance in episodic and continual learning settings.
- Abstract(参考訳): リソースの制約は、学習と意思決定の両方を根本的に変えることができます。
標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。
特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか?
我々は,このジレンマをMCTSとDQNに基づくアルゴリズムで研究し,エピソードおよび連続学習環境におけるメモリ割り当ての違いがメモリ性能に与える影響について検討した。
関連論文リスト
- Modular Memory is the Key to Continual Learning Agents [100.09688599754465]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。
我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (2026-03-02T11:40:05Z) - RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - Memento 2: Learning by Stateful Reflective Memory [4.7052412989773975]
本研究では,多言語モデル(LLM)に基づくエージェントにおける連続学習について検討する。
我々は、リフレクション、エージェントが過去の経験を再考し、将来の行動をどのように選択するかを調整する能力に焦点を当てる。
我々は、エージェントがエピソード記憶を維持・更新し、新しい体験を記憶に書き込むことと、関連する事例を読み取って意思決定をガイドする「ステートフル・リフレクティブ・意思決定プロセス(SRDP)」を紹介した。
論文 参考訳(メタデータ) (2025-12-27T22:15:03Z) - Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management [49.71055327567513]
メモリ管理は、不確実性の下でのシーケンシャルな意思決定問題と見なされるべきである。
私たちの貢献は、新しいアルゴリズムではなく、アプローチの限界を明確にする原則的なリフレーミングです。
論文 参考訳(メタデータ) (2025-12-25T08:23:03Z) - Learning from Supervision with Semantic and Episodic Memory: A Reflective Approach to Agent Adaptation [11.819481846962447]
本研究では,事前訓練された大規模言語モデル上に構築されたエージェントが,パラメータ更新なしでラベル付き例からターゲット分類関数を学習する方法について検討する。
我々のフレームワークは、エピソードメモリを使用して、インスタンスレベルの批判を保存し、それらを再利用可能なタスクレベルのガイダンスに蒸留する。
我々の研究は、より適応的で解釈可能なLLMエージェントを構築するためのメモリ駆動型反射学習の可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-22T17:58:03Z) - Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.201035830828726]
大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:57Z) - MemoryKT: An Integrative Memory-and-Forgetting Method for Knowledge Tracing [7.096160553754792]
学生の記憶状態をシミュレーションすることは、知識追跡モデルの性能と解釈可能性の両方を高めるための有望なアプローチである。
メモリは、エンコーディング、ストレージ、検索の3つの基本的なプロセスから構成される。
本稿では,新しい時間変動オートエンコーダに基づく知識追跡モデルであるMemoryKTを提案する。
論文 参考訳(メタデータ) (2025-08-11T15:59:59Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Towards Differential Relational Privacy and its use in Question
Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。
我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。
質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文 参考訳(メタデータ) (2022-03-30T22:59:24Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Learning what to remember [9.108546206438218]
本稿では,学習者が絶え間ない事実の流れに直面する生涯学習シナリオについて考察し,その記憶に保持すべきものを決定する。
オンライン学習フレームワークに基づく数学的モデルを導入し、学習者は記憶に制約のある専門家の集合に対して自己測定を行う。
このメモリ制約のあるシナリオにおいて乗算重み更新アルゴリズムを用いることの難しさを特定し、後悔の保証が最良に近い代替スキームを設計する。
論文 参考訳(メタデータ) (2022-01-11T06:42:50Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Neuromodulated Neural Architectures with Local Error Signals for
Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-16T07:41:23Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。