論文の概要: Evaluating Agents without Rewards
- arxiv url: http://arxiv.org/abs/2012.11538v2
- Date: Tue, 9 Feb 2021 22:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:41:33.027323
- Title: Evaluating Agents without Rewards
- Title(参考訳): 恨みのないエージェントの評価
- Authors: Brendon Matusch, Jimmy Ba, Danijar Hafner
- Abstract要約: エージェントが外部の監督なしに学ぶための競争目標が提案されている。
我々はエージェント行動の事前収集データセットの潜在的な目的をふりかえり計算する。
3つの本質的目標が、タスク報酬よりも人間の行動類似度指標に強く関連していることが分かりました。
- 参考スコア(独自算出の注目度): 33.17951971728784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has enabled agents to solve challenging tasks in
unknown environments. However, manually crafting reward functions can be time
consuming, expensive, and error prone to human error. Competing objectives have
been proposed for agents to learn without external supervision, but it has been
unclear how well they reflect task rewards or human behavior. To accelerate the
development of intrinsic objectives, we retrospectively compute potential
objectives on pre-collected datasets of agent behavior, rather than optimizing
them online, and compare them by analyzing their correlations. We study input
entropy, information gain, and empowerment across seven agents, three Atari
games, and the 3D game Minecraft. We find that all three intrinsic objectives
correlate more strongly with a human behavior similarity metric than with task
reward. Moreover, input entropy and information gain correlate more strongly
with human similarity than task reward does, suggesting the use of intrinsic
objectives for designing agents that behave similarly to human players.
- Abstract(参考訳): 強化学習によりエージェントは未知の環境で課題を解決することができる。
しかし、手動で報酬関数を作成することは、人間のエラーに時間がかかり、高価で、エラーを起こしやすい。
エージェントが外部の監督なしに学ぶための競合目標が提案されているが、それがいかにタスク報酬や人間の行動を反映しているかは定かではない。
本質的目標の開発を加速するために,エージェント行動の事前収集データセットの潜在的な目標を,オンラインに最適化するのではなく,遡及的に計算し,それらの相関分析によって比較する。
入力エントロピー、情報ゲイン、エンパワメントを7つのエージェント、3つのatariゲーム、3dゲームminecraftで検討した。
3つの本質的目標が、タスク報酬よりも人間の行動類似度指標に強く関連していることが分かりました。
さらに、入力エントロピーと情報ゲインは、タスク報酬よりも人間の類似性に強く相関しており、人間のプレイヤーと似た振る舞いをするエージェントを設計するために固有の目的を用いることを示唆している。
関連論文リスト
- Enhancing Human Experience in Human-Agent Collaboration: A
Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。
エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。
マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文 参考訳(メタデータ) (2024-01-28T05:05:57Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human-Like Navigation Behavior: A Statistical Evaluation Framework [0.0]
我々は,人工エージェントの挙動と人間プレイヤーの挙動を比較するために,非パラメトリック2サンプル仮説テストを構築した。
結果として得られる$p$-valueは、人間のような行動の無名な判断と一致しているだけでなく、類似性の尺度として使用できることを示す。
論文 参考訳(メタデータ) (2022-03-10T01:07:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。