Fugu-MT 論文翻訳(概要): Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards

論文の概要: Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards

arxiv url: http://arxiv.org/abs/2207.14722v1
Date: Fri, 29 Jul 2022 14:52:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-01 12:18:57.526618
Title: Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards
Title（参考訳）: 学習モチベーションに一貫性のある固有リワードによる自動リワード設計
Authors: Yixiang Wang, Yujing Hu, Feng Wu, Yingfeng Chen
Abstract要約: 報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
参考スコア（独自算出の注目度）: 46.068337522093096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward design is a critical part of the application of reinforcement learning, the performance of which strongly depends on how well the reward signal frames the goal of the designer and how well the signal assesses progress in reaching that goal. In many cases, the extrinsic rewards provided by the environment (e.g., win or loss of a game) are very sparse and make it difficult to train agents directly. Researchers usually assist the learning of agents by adding some auxiliary rewards in practice. However, designing auxiliary rewards is often turned to a trial-and-error search for reward settings that produces acceptable results. In this paper, we propose to automatically generate goal-consistent intrinsic rewards for the agent to learn, by maximizing which the expected accumulative extrinsic rewards can be maximized. To this end, we introduce the concept of motivation which captures the underlying goal of maximizing certain rewards and propose the motivation based reward design method. The basic idea is to shape the intrinsic rewards by minimizing the distance between the intrinsic and extrinsic motivations. We conduct extensive experiments and show that our method performs better than the state-of-the-art methods in handling problems of delayed reward, exploration, and credit assignment.
Abstract（参考訳）: 報酬設計は強化学習の応用において重要な部分であり、その性能は、その報酬信号が設計者の目標を十分に満たしていることと、その目標達成の進捗を評価することに大きく依存している。多くの場合、環境によって提供される外因的な報酬(例えば、ゲームの勝利や負け)は非常に疎外であり、エージェントを直接訓練することが困難である。研究者は通常、補助的な報酬を追加することでエージェントの学習を支援する。しかし、補助報酬の設計は、しばしば許容可能な結果をもたらす報酬設定の試行錯誤検索に向けられる。本稿では,期待される累積的外因性報酬を最大化することにより,エージェントが学習する目標に一貫性のある内因性報酬を自動的に生成することを提案する。そこで本研究では,一定の報酬を最大化する目標を捉えたモチベーションの概念を導入し,モチベーションに基づく報酬設計法を提案する。基本的な考え方は、本質的な動機と外生的な動機の間の距離を最小化し、本質的な報酬を形成することである。我々は広範な実験を行い, 遅延報酬, 探索, 信用割当といった問題に対処する上で, 最先端の手法よりも優れた性能を示す。

関連論文リスト

Reward Design for Reinforcement Learning Agents [7.306417438683523]
リワード機能は強化学習(RL)の中心であり、最適な意思決定を導くためのエージェントである。この論文は、RLにおける報酬シグナルの重要な役割を解明し、エージェントの行動と学習力学への影響を強調している。
論文参考訳（メタデータ） (2025-03-27T19:48:02Z)
Reducing Reward Dependence in RL Through Adaptive Confidence Discounting [0.0]
環境状態における行動の価値の知識が低い場合にのみ報酬を要求できる新しい強化学習アルゴリズムを提供する。高価な報酬への依存を減らすことで、報酬を得るための物流や費用が禁止されるような環境で、効率的に学習することができる。
論文参考訳（メタデータ） (2025-02-28T15:58:21Z)
Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文参考訳（メタデータ） (2024-10-22T08:07:44Z)
Informativeness of Reward Functions in Reinforcement Learning [34.40155383189179]
本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
論文参考訳（メタデータ） (2024-02-10T18:36:42Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-11-02T17:57:38Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Go Beyond Imagination: Maximizing Episodic Reachability with World Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-08-25T20:30:20Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Designing Rewards for Fast Learning [18.032654606016447]
報奨-デザインの選択が学習速度にどのように影響するかを考察し、ターゲットの振る舞いを素早く誘発する優れた報奨設計の原則を特定します。本稿では,行動ギャップを最大化し,主観的割引を最小化する報酬関数を効率よく求める線形プログラミングに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-30T19:48:52Z)
Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文参考訳（メタデータ） (2021-04-15T14:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。