論文の概要: Modularity benefits reinforcement learning agents with competing
homeostatic drives
- arxiv url: http://arxiv.org/abs/2204.06608v1
- Date: Wed, 13 Apr 2022 18:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 06:12:33.145121
- Title: Modularity benefits reinforcement learning agents with competing
homeostatic drives
- Title(参考訳): 競合するホメオスタティックドライブを用いた強化学習エージェントのモジュール性
- Authors: Zack Dulberg, Rachit Dubey, Isabel M. Berwian, Jonathan D. Cohen
- Abstract要約: 生物学的に関係のある多目的問題,変数集合の連続的ホメオスタシスについて検討し,モノリシックなディープQネットワークとモジュールネットワークを比較し,各変数に対する専用Qラーナと比較する。
モジュラーエージェント:a) は最小限に決定された探索を必要とし、b. はサンプル効率を改善し、c. はドメイン外摂動に対してより堅牢である。
- 参考スコア(独自算出の注目度): 5.044282303487273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of balancing conflicting needs is fundamental to intelligence.
Standard reinforcement learning algorithms maximize a scalar reward, which
requires combining different objective-specific rewards into a single number.
Alternatively, different objectives could also be combined at the level of
action value, such that specialist modules responsible for different objectives
submit different action suggestions to a decision process, each based on
rewards that are independent of one another. In this work, we explore the
potential benefits of this alternative strategy. We investigate a biologically
relevant multi-objective problem, the continual homeostasis of a set of
variables, and compare a monolithic deep Q-network to a modular network with a
dedicated Q-learner for each variable. We find that the modular agent: a)
requires minimal exogenously determined exploration; b) has improved sample
efficiency; and c) is more robust to out-of-domain perturbation.
- Abstract(参考訳): 矛盾するニーズのバランスが問題となるのは知性だ。
標準強化学習アルゴリズムは、異なる目的固有の報酬を1つの数字に組み合わせる必要があるスカラー報酬を最大化する。
あるいは、異なる目的に責任を持つ専門的なモジュールが、それぞれが互いに独立した報酬に基づいて、異なる行動提案を意思決定プロセスに送信するなど、アクション価値のレベルで異なる目的を組み合わせることもできる。
この研究において、我々はこの代替戦略の潜在的な利点を探求する。
生物学的に関係のある多目的問題,変数集合の連続的ホメオスタシスを調査し,モノリシックなディープQネットワークとモジュールネットワークを比較し,各変数に対する専用Qラーナと比較する。
私たちはモジュラーエージェントを見つけました。
a) 最小限の外来的に決定された探索を必要とする。
b) 試料効率を向上し,及び
c) ドメイン外の摂動に対してより堅牢である。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Using soft maximin for risk averse multi-objective decision-making [0.0]
分割関数 exp-log loss aversion (SFELLA) は最先端のしきい値アライメント目標法よりも高速に学習する。
SFELLAは、客観的スケールの変化に対する相対的な堅牢性の改善を示す。
これは、しきい値のアプローチで時々発生する問題を避けるのに有用である。
論文 参考訳(メタデータ) (2022-08-08T17:09:11Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。