論文の概要: Value Function Decomposition for Iterative Design of Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2206.13901v1
- Date: Fri, 24 Jun 2022 18:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 11:57:34.726336
- Title: Value Function Decomposition for Iterative Design of Reinforcement
Learning Agents
- Title(参考訳): 強化学習エージェントの反復設計のための値関数分解
- Authors: James MacGlashan (1), Evan Archer (1), Alisa Devlic (1), Takuma Seno
(1), Craig Sherstan (1), Peter R. Wurman (1), Peter Stone (1 and 2) ((1) Sony
AI, (2) The University of Texas at Austin)
- Abstract要約: 本稿では,値分解をアクター批判アルゴリズムの幅広いクラスに統合する方法を示す。
価値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値の見積もりを学習する。
これらの価値見積は、エージェントの学習と意思決定プロセスに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing reinforcement learning (RL) agents is typically a difficult process
that requires numerous design iterations. Learning can fail for a multitude of
reasons, and standard RL methods provide too few tools to provide insight into
the exact cause. In this paper, we show how to integrate value decomposition
into a broad class of actor-critic algorithms and use it to assist in the
iterative agent-design process. Value decomposition separates a reward function
into distinct components and learns value estimates for each. These value
estimates provide insight into an agent's learning and decision-making process
and enable new training methods to mitigate common problems. As a
demonstration, we introduce SAC-D, a variant of soft actor-critic (SAC) adapted
for value decomposition. SAC-D maintains similar performance to SAC, while
learning a larger set of value predictions. We also introduce
decomposition-based tools that exploit this information, including a new reward
influence metric, which measures each reward component's effect on agent
decision-making. Using these tools, we provide several demonstrations of
decomposition's use in identifying and addressing problems in the design of
both environments and agents. Value decomposition is broadly applicable and
easy to incorporate into existing algorithms and workflows, making it a
powerful tool in an RL practitioner's toolbox.
- Abstract(参考訳): 強化学習(RL)エージェントの設計は、通常、多くの設計イテレーションを必要とする難しいプロセスである。
学習はさまざまな理由で失敗する可能性があり、標準的なRLメソッドでは、正確な原因を知るためのツールが少なすぎる。
本稿では,価値分解をアクタ-批判的アルゴリズムの幅広いクラスに統合し,反復エージェント設計プロセスを支援する方法を提案する。
値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値見積を学習する。
これらの値推定は、エージェントの学習と意思決定プロセスに関する洞察を与え、共通の問題を緩和するための新しいトレーニング方法を可能にする。
実演として,価値分解に適応したソフトアクター・クリティック(SAC)の変種であるSAC-Dを紹介する。
SAC-DはSACと同じような性能を維持しながら、より大きな値予測セットを学習する。
また,エージェントの意思決定に対する各報酬成分の影響を測定する新しい報酬影響指標を含む,この情報を利用する分解ベースのツールも導入する。
これらのツールを用いて、環境とエージェントの両方の設計における問題を特定し、対処する際の分解の使い方を示す。
バリュー分解は広く適用可能で、既存のアルゴリズムやワークフローに簡単に組み込めるため、RL実践者のツールボックスにおいて強力なツールになります。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Dynamic Multi-Scale Loss Optimization for Object Detection [14.256807110937622]
マルチスケール検出器訓練の客観的不均衡について検討する。
本稿では, 適応可変重み付け (AVW) を提案する。
トレーニング中に重み付け方式を確率的に決定する新しい強化学習最適化(RLO)を開発した。
論文 参考訳(メタデータ) (2021-08-09T13:12:41Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。