論文の概要: Active Query Selection for Crowd-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.19132v1
- Date: Tue, 26 Aug 2025 15:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.902077
- Title: Active Query Selection for Crowd-Based Reinforcement Learning
- Title(参考訳): クラウドベース強化学習のためのアクティブクエリ選択
- Authors: Jonathan Erskine, Taku Yamagata, Raúl Santos-Rodríguez,
- Abstract要約: 本稿では,ノイズに対処するための確率的群集モデリング,マルチアノテーションフィードバック,そして最も情報に富むエージェント行動に対するフィードバックを優先するアクティブ学習という,2つの補完的戦略を組み合わせた新しいフレームワークを提案する。
2Dゲーム(Taxi, Pacman, Frozen Lake)や,UVA/Padovaシミュレータを用いた1型糖尿病に対する血糖コントロールタスクなど,人工的および現実世界に触発された環境にまたがるアプローチの評価を行った。
予備的な結果から,不確実な軌跡に対するフィードバックによって訓練されたエージェントは,ほとんどのタスクにおいて学習速度が向上し,血糖コントロールタスクのベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 6.317460176449321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning has gained prominence as a strategy for training agents in environments where the reward signal is difficult to specify or misaligned with human intent. However, its effectiveness is often limited by the high cost and low availability of reliable human input, especially in domains where expert feedback is scarce or errors are costly. To address this, we propose a novel framework that combines two complementary strategies: probabilistic crowd modelling to handle noisy, multi-annotator feedback, and active learning to prioritize feedback on the most informative agent actions. We extend the Advise algorithm to support multiple trainers, estimate their reliability online, and incorporate entropy-based query selection to guide feedback requests. We evaluate our approach in a set of environments that span both synthetic and real-world-inspired settings, including 2D games (Taxi, Pacman, Frozen Lake) and a blood glucose control task for Type 1 Diabetes using the clinically approved UVA/Padova simulator. Our preliminary results demonstrate that agents trained with feedback on uncertain trajectories exhibit faster learning in most tasks, and we outperform the baselines for the blood glucose control task.
- Abstract(参考訳): 評価に基づく強化学習は,報酬信号の特定や意図の一致が困難な環境下での訓練エージェントの戦略として注目されている。
しかし、特に専門家のフィードバックが不足したり、エラーがコストのかかる領域では、高いコストと信頼性の高い人的入力の可用性によって、その効果は制限されることが多い。
そこで本研究では,ノイズに対処するための確率的群集モデリング,マルチアノテータフィードバック,そして最も情報に富むエージェントアクションに対するフィードバックを優先するアクティブラーニングという,2つの補完的戦略を組み合わせた新しいフレームワークを提案する。
我々は、複数のトレーナーをサポートするためにアドバイスアルゴリズムを拡張し、その信頼性をオンラインで見積もり、フィードバックリクエストをガイドするためにエントロピーベースのクエリ選択を組み込む。
UVA/Padovaシミュレータを用いて2Dゲーム(Taxi, Pacman, Frozen Lake)と1型糖尿病の血糖コントロールタスクを含む,人工環境と実世界の環境の両方にまたがるアプローチの評価を行った。
予備的な結果から,不確実な軌跡に対するフィードバックによって訓練されたエージェントは,ほとんどのタスクにおいて学習速度が向上し,血糖コントロールタスクのベースラインよりも優れていたことが示唆された。
関連論文リスト
- A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Crowd-PrefRL: Preference-Based Reward Learning from Crowds [0.4439066410935887]
クラウドソーシング技術と嗜好に基づく強化学習アプローチを統合する概念的フレームワークであるCrowd-PrefRLを導入する。
予備的な結果は,未知の専門知識と信頼性を持つ群衆が提供した嗜好フィードバックから,報酬関数とエージェントポリシーを学習できることを示唆している。
提案手法は, 群衆内における少数視点の存在を, 教師なしの方法で識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-17T18:06:17Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。