論文の概要: Reinforcement Learning Under Algorithmic Triage
- arxiv url: http://arxiv.org/abs/2109.11328v1
- Date: Thu, 23 Sep 2021 12:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:55:51.958157
- Title: Reinforcement Learning Under Algorithmic Triage
- Title(参考訳): アルゴリズムによる強化学習
- Authors: Eleni Straitouri, Adish Singla, Vahid Balazadeh Meresht, Manuel
Gomez-Rodriguez
- Abstract要約: トリアージ下で強化学習モデルを学ぶための2段階アクター批判手法を開発した。
最初の段階は、人間が単独で操作した環境で収集された人間のデータを使って、オフラインで非政治的な訓練を行う。
第2段階は、人間の政策に切り替えが与える影響を考慮し、政治上の訓練を行う。
- 参考スコア(独自算出の注目度): 33.80293624975863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods to learn under algorithmic triage have predominantly focused on
supervised learning settings where each decision, or prediction, is independent
of each other. Under algorithmic triage, a supervised learning model predicts a
fraction of the instances and humans predict the remaining ones. In this work,
we take a first step towards developing reinforcement learning models that are
optimized to operate under algorithmic triage. To this end, we look at the
problem through the framework of options and develop a two-stage actor-critic
method to learn reinforcement learning models under triage. The first stage
performs offline, off-policy training using human data gathered in an
environment where the human has operated on their own. The second stage
performs on-policy training to account for the impact that switching may have
on the human policy, which may be difficult to anticipate from the above human
data. Extensive simulation experiments in a synthetic car driving task show
that the machine models and the triage policies trained using our two-stage
method effectively complement human policies and outperform those provided by
several competitive baselines.
- Abstract(参考訳): アルゴリズムトリアージの下で学習する方法は主に、各決定または予測が互いに独立している教師付き学習環境に焦点を当てている。
アルゴリズムのトリアージの下では、教師付き学習モデルがインスタンスのごく一部を予測し、人間が残りのインスタンスを予測する。
本研究では,アルゴリズム的トリアージ下での運用に最適化された強化学習モデルの開発に向けて,第一歩を踏み出す。
この目的のために,選択肢の枠組みを通じて問題を考察し,トリアージの下で強化学習モデルを学ぶための2段階アクター批判手法を開発した。
第1ステージは、人間が単独で操作した環境で収集された人間データを使用して、オフライン、オフポリシートレーニングを行う。
第2段階は、上記人間のデータから予測することが難しい人間の政策に切り替えが与える影響を考慮し、政治上の訓練を行う。
合成自動車運転タスクにおける広範囲なシミュレーション実験により,二段階法を用いて訓練した機械モデルとトリアージポリシーが,人間の政策を効果的に補完し,いくつかの競合ベースラインで提供されるものを上回ることを示した。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - A Survey of Human-in-the-loop for Machine Learning [7.056132067948671]
Human-in-the-loopは、人間の知識と経験を統合することで、最小限のコストで正確な予測モデルをトレーニングすることを目的としている。
本調査は,ループ内人間に対する高レベルな要約を提供することを目的としており,有効なループ内人間ソリューションを設計するためのアプローチを検討することに関心のある読者を動機付けている。
論文 参考訳(メタデータ) (2021-08-02T14:42:28Z) - Differentiable Learning Under Triage [25.41072393963499]
アルゴリズム的トリアージでは、予測モデルはすべてのインスタンスを予測しないが、それらのいくつかを人間の専門家に否定する。
完全自動化のためにトレーニングされたモデルは、トリアージ下では最適でない場合がある。
実用的勾配に基づくアルゴリズムを導入して,性能向上の一連のトリアージポリシと予測モデルを見つけることが保証されている。
論文 参考訳(メタデータ) (2021-03-16T08:07:31Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Data-efficient visuomotor policy training using reinforcement learning
and generative models [27.994338318811952]
本稿では,ビジュモータの逐次的意思決定問題を解決するためのデータ効率フレームワークを提案する。
我々は強化学習と潜在変数生成モデルの組み合わせを利用する。
論文 参考訳(メタデータ) (2020-07-26T14:19:00Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。