論文の概要: GUIDE: Real-Time Human-Shaped Agents
- arxiv url: http://arxiv.org/abs/2410.15181v1
- Date: Sat, 19 Oct 2024 18:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:17.537194
- Title: GUIDE: Real-Time Human-Shaped Agents
- Title(参考訳): GUIDE: リアルタイムな人型エージェント
- Authors: Lingyu Zhang, Zhengran Ji, Nicholas R Waytowich, Boyuan Chen,
- Abstract要約: リアルタイム強化学習のためのGUIDEを紹介した。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
- 参考スコア(独自算出の注目度): 4.676987516944155
- License:
- Abstract: The recent rapid advancement of machine learning has been driven by increasingly powerful models with the growing availability of training data and computational resources. However, real-time decision-making tasks with limited time and sparse learning signals remain challenging. One way of improving the learning speed and performance of these agents is to leverage human guidance. In this work, we introduce GUIDE, a framework for real-time human-guided reinforcement learning by enabling continuous human feedback and grounding such feedback into dense rewards to accelerate policy learning. Additionally, our method features a simulated feedback module that learns and replicates human feedback patterns in an online fashion, effectively reducing the need for human input while allowing continual training. We demonstrate the performance of our framework on challenging tasks with sparse rewards and visual observations. Our human study involving 50 subjects offers strong quantitative and qualitative evidence of the effectiveness of our approach. With only 10 minutes of human feedback, our algorithm achieves up to 30% increase in success rate compared to its RL baseline.
- Abstract(参考訳): 最近の機械学習の急速な進歩は、トレーニングデータと計算リソースの可用性が増大するにつれて、ますます強力なモデルによって推進されている。
しかし、時間や学習の少ないリアルタイム意思決定タスクは依然として困難である。
これらのエージェントの学習速度と性能を改善する一つの方法は、人間の指導を活用することである。
本稿では,人間からの継続的なフィードバックを可能とし,そのフィードバックを深い報酬に基礎づけて政策学習を加速させることにより,リアルタイムな人間指導型強化学習のフレームワークであるGUIDEを紹介する。
さらに,本手法では,人間のフィードバックパターンをオンラインで学習し,再現するシミュレーションフィードバックモジュールを特徴とする。
粗末な報酬と視覚的観察を伴う課題に対して,我々のフレームワークの性能を実証する。
50名の被験者を対象とする人間の研究は、我々のアプローチの有効性の強い量的および質的な証拠を提供する。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
関連論文リスト
- Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文 参考訳(メタデータ) (2024-10-07T15:12:01Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Prioritized Experience-based Reinforcement Learning with Human Guidance:
Methdology and Application to Autonomous Driving [2.5895890901896124]
強化学習は、最適化と制御問題を解決するために、巧妙な定義と卓越した計算努力を必要とする。
本稿では,人間指導に基づく総合的な強化学習フレームワークを構築した。
強化学習アルゴリズムの効率性と性能を高めるために,人間の指導に適応する新たな優先体験再生機構を提案する。
論文 参考訳(メタデータ) (2021-09-26T07:19:26Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。