Fugu-MT 論文翻訳(概要): Memory Allocation in Resource-Constrained Reinforcement Learning

論文の概要: Memory Allocation in Resource-Constrained Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.17263v1
Date: Mon, 09 Jun 2025 21:15:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-29 09:28:14.836358
Title: Memory Allocation in Resource-Constrained Reinforcement Learning
Title（参考訳）: 資源制約強化学習におけるメモリ割り当て
Authors: Massimiliano Tamborski, David Abel,
Abstract要約: リソースの制約は、学習と意思決定の両方を根本的に変えることができます。標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか?
参考スコア（独自算出の注目度）: 8.866141780407903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Resource constraints can fundamentally change both learning and decision-making. We explore how memory constraints influence an agent's performance when navigating unknown environments using standard reinforcement learning algorithms. Specifically, memory-constrained agents face a dilemma: how much of their limited memory should be allocated to each of the agent's internal processes, such as estimating a world model, as opposed to forming a plan using that model? We study this dilemma in MCTS- and DQN-based algorithms and examine how different allocations of memory impact performance in episodic and continual learning settings.
Abstract（参考訳）: リソースの制約は、学習と意思決定の両方を根本的に変えることができます。標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか? 我々は,このジレンマをMCTSとDQNに基づくアルゴリズムで研究し,エピソードおよび連続学習環境におけるメモリ割り当ての違いがメモリ性能に与える影響について検討した。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。提案フレームワークの一般化と記憶性能を理論的に解析した。
論文参考訳（メタデータ） (2023-09-18T21:00:01Z)
Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文参考訳（メタデータ） (2023-05-24T01:20:22Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Towards Differential Relational Privacy and its use in Question Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文参考訳（メタデータ） (2022-03-30T22:59:24Z)
Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。本手法の有効性を証明するために理論的解析を行った。
論文参考訳（メタデータ） (2022-03-22T12:41:55Z)
Learning what to remember [9.108546206438218]
本稿では,学習者が絶え間ない事実の流れに直面する生涯学習シナリオについて考察し,その記憶に保持すべきものを決定する。オンライン学習フレームワークに基づく数学的モデルを導入し、学習者は記憶に制約のある専門家の集合に対して自己測定を行う。このメモリ制約のあるシナリオにおいて乗算重み更新アルゴリズムを用いることの難しさを特定し、後悔の保証が最良に近い代替スキームを設計する。
論文参考訳（メタデータ） (2022-01-11T06:42:50Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
Neuromodulated Neural Architectures with Local Error Signals for Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-07-16T07:41:23Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。