論文の概要: Interaction-Grounded Learning
- arxiv url: http://arxiv.org/abs/2106.04887v1
- Date: Wed, 9 Jun 2021 08:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:33:01.078303
- Title: Interaction-Grounded Learning
- Title(参考訳): 対話型学習
- Authors: Tengyang Xie, John Langford, Paul Mineiro, Ida Momennejad
- Abstract要約: そこで我々は,学習者の目的が環境と対話することであり,その政策を最適化するために,根拠や明確な報酬を伴わない「インタラクション・グラウンド・ラーニング」を提案する。
そこで本研究では,ある自然な仮定を前提とした対話型学習環境において,学習者が潜在報酬を発見でき,対話を成功させるための政策を立案できることを示す。
- 参考スコア(独自算出の注目度): 24.472306647094253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a prosthetic arm, learning to adapt to its user's control signals.
We propose Interaction-Grounded Learning for this novel setting, in which a
learner's goal is to interact with the environment with no grounding or
explicit reward to optimize its policies. Such a problem evades common RL
solutions which require an explicit reward. The learning agent observes a
multidimensional context vector, takes an action, and then observes a
multidimensional feedback vector. This multidimensional feedback vector has no
explicit reward information. In order to succeed, the algorithm must learn how
to evaluate the feedback vector to discover a latent reward signal, with which
it can ground its policies without supervision. We show that in an
Interaction-Grounded Learning setting, with certain natural assumptions, a
learner can discover the latent reward and ground its policy for successful
interaction. We provide theoretical guarantees and a proof-of-concept empirical
evaluation to demonstrate the effectiveness of our proposed approach.
- Abstract(参考訳): 義肢を考えて、ユーザーの制御信号に適応するよう学習する。
そこで本研究では,学習者の目標が環境と相互作用することであり,学習者の方針を最適化するための接地や明示的な報酬を伴わないインタラクション・グラウンド学習を提案する。
このような問題は、明示的な報酬を必要とする一般的なRL解を避ける。
学習エージェントは、多次元のコンテキストベクトルを観察し、アクションをとり、多次元のフィードバックベクトルを観察する。
この多次元フィードバックベクトルは明確な報奨情報を持たない。
成功するためには、アルゴリズムはフィードバックベクトルを評価する方法を学び、潜在報酬信号を発見し、それを監視せずに方針を定めなければならない。
対話型学習環境において,ある自然な仮定により,学習者は潜在報酬を発見し,その相互作用を成功させるための方針を定めることができることを示す。
提案手法の有効性を実証するための理論的保証と概念実証評価を提供する。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - Interaction-Grounded Learning with Action-inclusive Feedback [46.29513917377202]
フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
論文 参考訳(メタデータ) (2022-06-16T17:59:10Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z) - Value Driven Representation for Human-in-the-Loop Reinforcement Learning [33.79501890330252]
我々は,システム設計者が,強化学習エージェントが使用する観測空間を定義するために,センサセットや特徴セットを選択する方法のアルゴリズム的基礎に焦点をあてる。
本稿では、強化学習エージェントの観測空間を反復的かつ適応的に拡張するアルゴリズム、値駆動表現(VDR)を提案する。
シミュレーションされた人間を用いた標準RLベンチマークによる手法の性能評価を行い、従来のベースラインよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-02T18:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。