論文の概要: Reward-rational (implicit) choice: A unifying formalism for reward
learning
- arxiv url: http://arxiv.org/abs/2002.04833v4
- Date: Fri, 11 Dec 2020 17:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:38:46.660483
- Title: Reward-rational (implicit) choice: A unifying formalism for reward
learning
- Title(参考訳): reward-rational (implicit) choice: 報酬学習のための統一形式
- Authors: Hong Jun Jeon, Smitha Milli, Anca D. Dragan
- Abstract要約: 研究者は人間の行動やフィードバックから報酬関数を学習することを目指している。
近年、報酬関数の証拠として解釈される行動の種類は大幅に拡大している。
ロボットは、こうした多様な振る舞いをどう理解するのか?
- 参考スコア(独自算出の注目度): 35.57436895497646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is often difficult to hand-specify what the correct reward function is for
a task, so researchers have instead aimed to learn reward functions from human
behavior or feedback. The types of behavior interpreted as evidence of the
reward function have expanded greatly in recent years. We've gone from
demonstrations, to comparisons, to reading into the information leaked when the
human is pushing the robot away or turning it off. And surely, there is more to
come. How will a robot make sense of all these diverse types of behavior? Our
key insight is that different types of behavior can be interpreted in a single
unifying formalism - as a reward-rational choice that the human is making,
often implicitly. The formalism offers both a unifying lens with which to view
past work, as well as a recipe for interpreting new sources of information that
are yet to be uncovered. We provide two examples to showcase this: interpreting
a new feedback type, and reading into how the choice of feedback itself leaks
information about the reward.
- Abstract(参考訳): タスクの正しい報酬関数が何であるかを手作業で特定することが難しい場合が多いため、研究者は人間の行動やフィードバックから報酬機能を学ぶことを目指している。
報酬関数の証拠として解釈される行動の種類は近年大きく拡大している。
デモから比較まで、人間がロボットを押したりオフにしたりしたときにリークした情報を読んだりしました。
そしてもちろん、もっと多くのことが起こるだろう。
ロボットは、こうした多様な振る舞いをどう理解するのか?
私たちの重要な洞察は、異なるタイプの行動は、人間がしばしば暗黙的に行っている報酬-合理的な選択として、単一の統一形式に解釈できるということです。
フォーマリズムは、過去の作品を見るための統一レンズと、まだ発見されていない新しい情報ソースを解釈するためのレシピの両方を提供する。
新たなフィードバックタイプを解釈し、フィードバックの選択自体が報酬に関する情報を漏洩させる方法を読む。
関連論文リスト
- Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Choice Set Misspecification in Reward Inference [14.861109950708999]
報酬関数を手動で指定する有望な代替手段は、ロボットが人間のフィードバックからそれを推測できるようにすることである。
本研究では,選択集合自体が特定し難いという考え方を紹介し,選択集合の誤仕様を解析する。
異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬に有意義な差をもたらすことを示した。
論文 参考訳(メタデータ) (2021-01-19T15:35:30Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。