論文の概要: Advice Conformance Verification by Reinforcement Learning agents for
Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2210.03455v1
- Date: Fri, 7 Oct 2022 10:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:00:14.917942
- Title: Advice Conformance Verification by Reinforcement Learning agents for
Human-in-the-Loop
- Title(参考訳): ヒューマン・イン・ザ・ループのための強化学習エージェントによるアドバイス適合性検証
- Authors: Mudit Verma, Ayush Kharkwal, Subbarao Kambhampati
- Abstract要約: 我々は MuJoCo のヒューマノイド環境における良いアドバイスシナリオと悪いアドバイスシナリオの2例について検討した。
提案手法は,適応性検証問題の解法として解釈可能な手段を提供することができることを示す。
- 参考スコア(独自算出の注目度): 17.042179951736262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-in-the-loop (HiL) reinforcement learning is gaining traction in domains
with large action and state spaces, and sparse rewards by allowing the agent to
take advice from HiL. Beyond advice accommodation, a sequential decision-making
agent must be able to express the extent to which it was able to utilize the
human advice. Subsequently, the agent should provide a means for the HiL to
inspect parts of advice that it had to reject in favor of the overall
environment objective. We introduce the problem of Advice-Conformance
Verification which requires reinforcement learning (RL) agents to provide
assurances to the human in the loop regarding how much of their advice is being
conformed to. We then propose a Tree-based lingua-franca to support this
communication, called a Preference Tree. We study two cases of good and bad
advice scenarios in MuJoCo's Humanoid environment. Through our experiments, we
show that our method can provide an interpretable means of solving the
Advice-Conformance Verification problem by conveying whether or not the agent
is using the human's advice. Finally, we present a human-user study with 20
participants that validates our method.
- Abstract(参考訳): human-in-the-loop(hil)強化学習は、大きなアクションと状態空間を持つドメインで勢いを増し、エージェントがhilからアドバイスを受けられるようにすることで、報酬をまばらにしている。
アドバイスの宿泊以外にも、シーケンシャルな意思決定エージェントは、人間がアドバイスを利用できる程度を表現できなければならない。
その後、エージェントは、HiLが全体の環境目標を支持するために拒否しなければならないアドバイスの一部を検査する手段を提供するべきである。
本稿では,強化学習(RL)エージェントが,そのアドバイスがどの程度適合しているかを,ループ内の人間に保証することを必要とするアドバイス・コンパタンス検証の問題を紹介する。
次に,このコミュニケーションをサポートする木ベースのlingua-francaを提案する。
我々は MuJoCo のヒューマノイド環境における良いアドバイスシナリオと悪いアドバイスシナリオの2例について検討した。
提案手法は, エージェントが人間のアドバイスを使用しているか否かを伝達することにより, アドバイス・コンパタンス検証問題を解決するための解釈可能な手段を提供することができることを示す。
最後に,提案手法を検証した20名の被験者によるユーザ調査を行った。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - ADESSE: Advice Explanations in Complex Repeated Decision-Making Environments [14.105935964906976]
この研究は、インテリジェントなエージェントが人間の意思決定者にアドバイスを提供するような問題設定について考察する。
我々は,人的信頼と意思決定を改善するためのアドバイザーエージェントの説明を生成するために,ADESSEというアプローチを開発した。
論文 参考訳(メタデータ) (2024-05-31T08:59:20Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - RAH! RecSys-Assistant-Human: A Human-Centered Recommendation Framework
with LLM Agents [30.250555783628762]
この研究は、これらの問題に対処することは単にレコメンダシステムの責任ではないと主張している。
本稿では,RAH Recommenderシステム,Assistant,Humanフレームワークを紹介する。
私たちのコントリビューションは、さまざまなレコメンデーションモデルと効果的に連携する、人間中心のレコメンデーションフレームワークを提供します。
論文 参考訳(メタデータ) (2023-08-19T04:46:01Z) - Learning When to Advise Human Decision Makers [12.47847261193524]
本稿では,アルゴリズムがユーザと双方向に対話するAIシステムの設計を提案する。
大規模な実験の結果,私たちのアドバイスアプローチは,必要な時にアドバイスを提供することができることがわかった。
論文 参考訳(メタデータ) (2022-09-27T17:52:13Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Human Engagement Providing Evaluative and Informative Advice for
Interactive Reinforcement Learning [2.5799044614524664]
この研究は、評価的または情報的という2つのアプローチのどちらが人間にとって好ましい指導的アプローチであるかを答えることに焦点を当てている。
結果は、ユーザーにより正確なアドバイスを提供し、学習者エージェントを長く支援し、エピソード毎により多くのアドバイスを提供することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:14:02Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - A two-level solution to fight against dishonest opinions in
recommendation-based trust systems [13.356755375091456]
エージェントが他のエージェントに対して信頼を構築するために、複数の関係者からレコメンデーションを要求するシナリオを考察する。
収集レベルでは,エージェントが推薦の正確さを自己評価できるようにすることを提案する。
処理レベルでは,コラシオン攻撃に耐性のあるレコメンデーションアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T00:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。