論文の概要: Teaching Humans When To Defer to a Classifier via Examplars
- arxiv url: http://arxiv.org/abs/2111.11297v1
- Date: Mon, 22 Nov 2021 15:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 17:16:11.775789
- Title: Teaching Humans When To Defer to a Classifier via Examplars
- Title(参考訳): 受験者を通じて分類器に推論するタイミングを人間に教える
- Authors: Hussein Mozannar, Arvind Satyanarayan, David Sontag
- Abstract要約: 我々は、人間の意思決定者がエージェントの強みと弱みの有効な精神モデルを学ぶことを確実にすることを目指している。
本研究では,人間がエージェントの助けを借りてタスクを解く,模範的な教育戦略を提案する。
本稿では,局所的に最も近いルールを適用したAIの人間のメンタルモデルについて,新しいパラメータ化を提案する。
- 参考スコア(独自算出の注目度): 9.851033166756274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expert decision makers are starting to rely on data-driven automated agents
to assist them with various tasks. For this collaboration to perform properly,
the human decision maker must have a mental model of when and when not to rely
on the agent. In this work, we aim to ensure that human decision makers learn a
valid mental model of the agent's strengths and weaknesses. To accomplish this
goal, we propose an exemplar-based teaching strategy where humans solve the
task with the help of the agent and try to formulate a set of guidelines of
when and when not to defer. We present a novel parameterization of the human's
mental model of the AI that applies a nearest neighbor rule in local regions
surrounding the teaching examples. Using this model, we derive a near-optimal
strategy for selecting a representative teaching set. We validate the benefits
of our teaching strategy on a multi-hop question answering task using crowd
workers and find that when workers draw the right lessons from the teaching
stage, their task performance improves, we furthermore validate our method on a
set of synthetic experiments.
- Abstract(参考訳): 専門家の意思決定者は、さまざまなタスクでデータ駆動の自動化エージェントに依存し始めています。
このコラボレーションが適切に機能するためには、人間の意思決定者はエージェントに依存しない時期と時期のメンタルモデルを持つ必要がある。
本研究は,人間の意思決定者がエージェントの強みと弱みの有効な精神モデルを学ぶことを目的とする。
この目的を達成するために,人間がエージェントの助けを借りてタスクを解決し,いつ,いつ,いつ延期するかのガイドラインを定式化しようとする,模範的な教育戦略を提案する。
本稿では, 学習事例を取り巻く地域において, 身近なルールを適用したAIのメンタルモデルについて, 新たなパラメータ化を提案する。
このモデルを用いて、代表的教示セットを選択するための準最適戦略を導出する。
本研究では, 群集作業員を用いたマルチホップ質問応答タスクにおける指導戦略の利点を検証するとともに, 作業員が学習段階から正しい教訓を導き出すと, 作業性能が向上することを確認した。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping [9.81076530822611]
本稿では,専門家エージェントポリシーと学習者エージェントポリシーのサブゴールマッピングを学習する手法を提案する。
タスクの分散のために,Long Short Term Memory (LSTM) ネットワークをトレーニングすることで,このサブゴールマッピングを学習する。
提案手法は,与えられたタスクの分布に基づくサブゴールマッピングを効果的に発見できることを実証する。
論文 参考訳(メタデータ) (2024-10-18T14:08:41Z) - LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers [59.69716962256727]
本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
論文 参考訳(メタデータ) (2023-12-14T14:07:41Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Designing Closed-Loop Models for Task Allocation [36.04165658325371]
我々は、ブートストラップモデルトレーニングと人間とタスクの類似性に関する弱い事前情報を利用する。
このような弱い事前の使用は、人間の意思決定者が誤りを犯したりバイアスを受けたりしても、タスク割り当て精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:57:56Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Unsupervised Domain Adaptive Person Re-Identification via Human Learning
Imitation [67.52229938775294]
近年、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師学生フレームワークを彼らの手法に活用することを提案している。
近年の教員中心の枠組みに基づく手法に着想を得て,異なる側面から人間の学習過程を模倣するためのさらなる探究を提案する。
論文 参考訳(メタデータ) (2021-11-28T01:14:29Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Should artificial agents ask for help in human-robot collaborative
problem-solving? [0.7251305766151019]
本稿では,人間とロボットの相互作用に関する実証実験から得られた仮説から始めることを提案する。
簡単なクローズドタスクを解くと、専門家から助けを受けることが、このタスクの学習を加速させるかどうかを確認する。
私たちの経験から、Q-ラーニングのアルゴリズムは、Q-ラーニングのアルゴリズムが、子供と同じように専門家の助けから恩恵を受けていると結論付けることができました。
論文 参考訳(メタデータ) (2020-05-25T09:15:30Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。