論文の概要: CANDERE-COACH: Reinforcement Learning from Noisy Feedback
- arxiv url: http://arxiv.org/abs/2409.15521v1
- Date: Mon, 23 Sep 2024 20:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:47:38.625639
- Title: CANDERE-COACH: Reinforcement Learning from Noisy Feedback
- Title(参考訳): CANDERE-COACH:雑音フィードバックによる強化学習
- Authors: Yuxuan Li, Srijita Das, Matthew E. Taylor,
- Abstract要約: CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
- 参考スコア(独自算出の注目度): 12.232688822099325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, Reinforcement learning (RL) has been widely applied to many challenging tasks. However, in order to perform well, it requires access to a good reward function which is often sparse or manually engineered with scope for error. Introducing human prior knowledge is often seen as a possible solution to the above-mentioned problem, such as imitation learning, learning from preference, and inverse reinforcement learning. Learning from feedback is another framework that enables an RL agent to learn from binary evaluative signals describing the teacher's (positive or negative) evaluation of the agent's action. However, these methods often make the assumption that evaluative teacher feedback is perfect, which is a restrictive assumption. In practice, such feedback can be noisy due to limited teacher expertise or other exacerbating factors like cognitive load, availability, distraction, etc. In this work, we propose the CANDERE-COACH algorithm, which is capable of learning from noisy feedback by a nonoptimal teacher. We propose a noise-filtering mechanism to de-noise online feedback data, thereby enabling the RL agent to successfully learn with up to 40% of the teacher feedback being incorrect. Experiments on three common domains demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): 近年,強化学習 (Reinforcement Learning, RL) が多くの課題に広く応用されている。
しかし、うまく機能するためには、しばしばスパースまたは手動でエラーのスコープを組み込んだ良い報酬関数にアクセスする必要がある。
人間の事前知識の導入は、模倣学習、嗜好からの学習、逆強化学習といった上記の問題の解決策としてしばしば見なされる。
フィードバックからの学習は、RLエージェントが、エージェントの行動に対する教師の(肯定的または否定的な)評価を記述するバイナリ評価信号から学ぶことを可能にする別のフレームワークである。
しかし、これらの手法は、評価教師のフィードバックが完璧であると仮定することが多く、これは制限的な仮定である。
実際にそのようなフィードバックは、教師の専門知識が限られていることや、認知的負荷、可用性、気晴らしなど、さらに悪化する要因のためにうるさい。
本研究では,非最適教師による雑音フィードバックから学習可能なCANDERE-COACHアルゴリズムを提案する。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
3つの共通領域の実験は、提案手法の有効性を実証している。
関連論文リスト
- Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Active Reward Learning from Multiple Teachers [17.10187575303075]
逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
論文 参考訳(メタデータ) (2023-03-02T01:26:53Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Methodical Advice Collection and Reuse in Deep Reinforcement Learning [12.840744403432547]
この研究は、学生がいつアドバイスを求めるべきか、学生がより少ないアドバイスを求めるために教師をモデル化できるかどうかについて、不確実性をうまく活用する方法を検討する。
実験結果から,2つの不確実性を用いてアドバイス収集と再利用を行うことにより,アタリゲーム間の学習性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-14T22:24:55Z) - Learning Robust Recommender from Noisy Implicit Feedback [140.7090392887355]
我々はAdaptive Denoising Training(ADT)という新しいトレーニング戦略を提案する。
ADTは2つのパラダイム(Trncated LossとReweighted Loss)によるノイズ相互作用を適応的に引き起こす
我々は、追加のフィードバック(例えば、評価)を補助信号とみなし、追加のフィードバックをADTに組み込むための3つの戦略を提案する。
論文 参考訳(メタデータ) (2021-12-02T12:12:02Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics [24.863665993509997]
模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。
状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。
このアプローチは、さまざまなノイズフィードバックから素早く学習できることを示します。
論文 参考訳(メタデータ) (2021-04-02T12:42:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。