論文の概要: Scalar reward is not enough: A response to Silver, Singh, Precup and
Sutton (2021)
- arxiv url: http://arxiv.org/abs/2112.15422v1
- Date: Thu, 25 Nov 2021 00:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 21:42:00.103611
- Title: Scalar reward is not enough: A response to Silver, Singh, Precup and
Sutton (2021)
- Title(参考訳): スカラー報酬は十分ではない:シルバー、シン、プレカップ、サットンへの反応(2021年)
- Authors: Peter Vamplew, Benjamin J. Smith, Johan Kallstrom, Gabriel Ramos,
Roxana Radulescu, Diederik M. Roijers, Conor F. Hayes, Fredrik Heintz,
Patrick Mannion, Pieter J.K. Libin, Richard Dazeley, Cameron Foale
- Abstract要約: 我々は、スカラー報酬が生物学的および計算知性の両方の側面を考慮するには不十分であると主張している。
このアプローチを、安全でない、または非倫理的な行動の許容できないリスクのために、人工知能の開発に使用するのは、依然として望ましくない。
- 参考スコア(独自算出の注目度): 5.377016988002648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent paper `"Reward is Enough" by Silver, Singh, Precup and Sutton
posits that the concept of reward maximisation is sufficient to underpin all
intelligence, both natural and artificial. We contest the underlying assumption
of Silver et al. that such reward can be scalar-valued. In this paper we
explain why scalar rewards are insufficient to account for some aspects of both
biological and computational intelligence, and argue in favour of explicitly
multi-objective models of reward maximisation. Furthermore, we contend that
even if scalar reward functions can trigger intelligent behaviour in specific
cases, it is still undesirable to use this approach for the development of
artificial general intelligence due to unacceptable risks of unsafe or
unethical behaviour.
- Abstract(参考訳): 最近のSilver, Singh, Precup と Sutton による論文 "Reward is Enough" では、報酬の最大化の概念は、自然と人工の両方の知性を支えるのに十分であるとしている。
我々は、そのような報酬をスカラー評価できるというシルバーらの仮定に異議を唱える。
本稿では,生物知能と計算知能の両面でスカラー報酬が不十分である理由を述べるとともに,報酬最大化の多目的モデルを明確に支持する。
さらに、スカラー報酬関数が特定のケースで知的行動を引き起こすとしても、安全でない行動や非倫理的な行動の許容できないリスクのために、この手法を人工知能の開発に使用するのは望ましくない。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Tiered Reward: Designing Rewards for Specification and Fast Learning of Desired Behavior [13.409265335314169]
Tiered Rewardは環境に依存しない報酬関数のクラスである。
我々は、我々の嗜好関係に応じて最適な政策を誘導することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-12-07T15:55:00Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Reward is not enough: can we liberate AI from the reinforcement learning paradigm? [0.0]
Reward氏は、自然と人工知能に関連する多くの活動を説明するには不十分だ。
知的行動の複雑さは、報酬の最大化の上の2階の複雑さだけではない。
論文 参考訳(メタデータ) (2022-02-03T18:31:48Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。