論文の概要: Value Function Decomposition for Iterative Design of Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2206.13901v1
- Date: Fri, 24 Jun 2022 18:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 11:57:34.726336
- Title: Value Function Decomposition for Iterative Design of Reinforcement
Learning Agents
- Title(参考訳): 強化学習エージェントの反復設計のための値関数分解
- Authors: James MacGlashan (1), Evan Archer (1), Alisa Devlic (1), Takuma Seno
(1), Craig Sherstan (1), Peter R. Wurman (1), Peter Stone (1 and 2) ((1) Sony
AI, (2) The University of Texas at Austin)
- Abstract要約: 本稿では,値分解をアクター批判アルゴリズムの幅広いクラスに統合する方法を示す。
価値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値の見積もりを学習する。
これらの価値見積は、エージェントの学習と意思決定プロセスに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing reinforcement learning (RL) agents is typically a difficult process
that requires numerous design iterations. Learning can fail for a multitude of
reasons, and standard RL methods provide too few tools to provide insight into
the exact cause. In this paper, we show how to integrate value decomposition
into a broad class of actor-critic algorithms and use it to assist in the
iterative agent-design process. Value decomposition separates a reward function
into distinct components and learns value estimates for each. These value
estimates provide insight into an agent's learning and decision-making process
and enable new training methods to mitigate common problems. As a
demonstration, we introduce SAC-D, a variant of soft actor-critic (SAC) adapted
for value decomposition. SAC-D maintains similar performance to SAC, while
learning a larger set of value predictions. We also introduce
decomposition-based tools that exploit this information, including a new reward
influence metric, which measures each reward component's effect on agent
decision-making. Using these tools, we provide several demonstrations of
decomposition's use in identifying and addressing problems in the design of
both environments and agents. Value decomposition is broadly applicable and
easy to incorporate into existing algorithms and workflows, making it a
powerful tool in an RL practitioner's toolbox.
- Abstract(参考訳): 強化学習(RL)エージェントの設計は、通常、多くの設計イテレーションを必要とする難しいプロセスである。
学習はさまざまな理由で失敗する可能性があり、標準的なRLメソッドでは、正確な原因を知るためのツールが少なすぎる。
本稿では,価値分解をアクタ-批判的アルゴリズムの幅広いクラスに統合し,反復エージェント設計プロセスを支援する方法を提案する。
値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値見積を学習する。
これらの値推定は、エージェントの学習と意思決定プロセスに関する洞察を与え、共通の問題を緩和するための新しいトレーニング方法を可能にする。
実演として,価値分解に適応したソフトアクター・クリティック(SAC)の変種であるSAC-Dを紹介する。
SAC-DはSACと同じような性能を維持しながら、より大きな値予測セットを学習する。
また,エージェントの意思決定に対する各報酬成分の影響を測定する新しい報酬影響指標を含む,この情報を利用する分解ベースのツールも導入する。
これらのツールを用いて、環境とエージェントの両方の設計における問題を特定し、対処する際の分解の使い方を示す。
バリュー分解は広く適用可能で、既存のアルゴリズムやワークフローに簡単に組み込めるため、RL実践者のツールボックスにおいて強力なツールになります。
関連論文リスト
- Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - REValueD: Regularised Ensemble Value-Decomposition for Factorisable
Markov Decision Processes [7.2129390689756185]
離散アクション強化学習アルゴリズムは、高次元の離散アクション空間を持つタスクにしばしば干渉する。
本研究は、値分解の効果を深く掘り下げ、対象の分散を増幅することを明らかにする。
我々は、ある次元における探索的行動が他の次元における最適な行動の価値に与える影響を軽減するのに役立つ正規化損失を導入する。
我々の新しいアルゴリズムREValueDはDeepMind Control Suiteタスクの離散バージョンでテストされ、優れた性能を示している。
論文 参考訳(メタデータ) (2024-01-16T21:47:23Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Dynamic Multi-Scale Loss Optimization for Object Detection [14.256807110937622]
マルチスケール検出器訓練の客観的不均衡について検討する。
本稿では, 適応可変重み付け (AVW) を提案する。
トレーニング中に重み付け方式を確率的に決定する新しい強化学習最適化(RLO)を開発した。
論文 参考訳(メタデータ) (2021-08-09T13:12:41Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。