論文の概要: Reinforcing the World's Edge: A Continual Learning Problem in the Multi-Agent-World Boundary
- arxiv url: http://arxiv.org/abs/2603.06813v1
- Date: Fri, 06 Mar 2026 19:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.120205
- Title: Reinforcing the World's Edge: A Continual Learning Problem in the Multi-Agent-World Boundary
- Title(参考訳): 世界のエッジを補強する: マルチエージェント世界境界における継続的な学習問題
- Authors: Dane Malenfant,
- Abstract要約: 再利用可能な決定構造は、強化学習においてエピソード全体で生き残る。
ポリシーによる非定常性は、誘導されたカーネルと報酬に対する変動予算で定量化することができる。
連続的なRL問題はエージェント境界の不安定性から生じるという見解は、境界ドリフトの保存、予測、その他の管理に関する今後の研究を示唆している。
- 参考スコア(独自算出の注目度): 0.5801621787540268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusable decision structure survives across episodes in reinforcement learning, but this depends on how the agent--world boundary is drawn. In stationary, finite-horizon MDPs, an invariant core: the (not-necessarily contiguous) subsequences of state--action pairs shared by all successful trajectories (optionally under a simple abstraction) can be constructed. Under mild goal-conditioned assumptions, it's existence can be proven and explained by how the core captures prototypes that transfer across episodes. When the same task is embedded in a decentralized Markov game and the peer agent is folded into the world, each peer-policy update induces a new MDP; the per-episode invariant core can shrink or vanish, even with small changes to the induced world dynamics, sometimes leaving only the individual task core or just nothing. This policy-induced non-stationarity can be quantified with a variation budget over the induced kernels and rewards, linking boundary drift to loss of invariants. The view that a continual RL problem arises from instability of the agent--world boundary (rather than exogenous task switches) in decentralized MARL suggests future work on preserving, predicting, or otherwise managing boundary drift.
- Abstract(参考訳): 再利用可能な決定構造は、強化学習のエピソードで生き残るが、エージェントと世界の境界がどう描かれるかによって異なる。
定常的、有限ホライゾン MDP では、状態-作用対の(必要ではない)部分列が(任意の単純な抽象の下で)すべての成功した軌道で共有される不変コアを構成することができる。
マイルドな目標条件の仮定の下では、コアがエピソード間で転送されるプロトタイプをキャプチャする方法によって、その存在が証明され、説明できる。
同じタスクが分散化されたマルコフゲームに埋め込まれ、ピアエージェントが世界へ折り畳まれると、各ピアポリシー更新は新しいMDPが誘導される。
このポリシーによる非定常性は、誘導されたカーネルと報酬に対する変動予算で定量化することができ、境界ドリフトと不変量の損失をリンクすることができる。
分散化されたMARLにおけるエージェント-世界境界(外在的タスクスイッチではなく)の不安定性から連続的なRL問題が発生するという見解は、境界ドリフトの保存、予測、その他の管理に関する将来の研究を示唆している。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Monotone deep Boltzmann machines [86.50247625239406]
ディープボルツマンマシン(Deep Boltzmann Machine、DBM)は、双対エネルギー関数によって制御される多層確率モデルである。
我々は,各層で任意の自己接続が可能な新しい制限モデルであるモノトンDBMを開発した。
アクティベーションの特定の選択が、変動平均場解を与える固定点反復をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-11T03:02:44Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Mapping conditional distributions for domain adaptation under
generalized target shift [0.0]
我々は、条件シフトとラベルシフト(GeTarS)の下でのソースとターゲットドメイン間の教師なしドメイン適応(UDA)の問題を考える。
最近のアプローチでは、ドメイン不変表現を学習するが、実際的な制限があり、実際には成り立たない強い仮定に依存している。
本稿では,既存の欠点を回避した,事前訓練された表現の整合化のための,新規で汎用的なアプローチについて検討する。
論文 参考訳(メタデータ) (2021-10-26T14:25:07Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。