論文の概要: Zero-Shot Assistance in Novel Decision Problems
- arxiv url: http://arxiv.org/abs/2202.07364v1
- Date: Tue, 15 Feb 2022 12:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 21:09:04.678001
- Title: Zero-Shot Assistance in Novel Decision Problems
- Title(参考訳): 新規決定問題におけるゼロショット支援
- Authors: Sebastiaan De Peuter, Samuel Kaski
- Abstract要約: 我々は、エージェント(しばしば人間)が新しいシーケンシャルな意思決定問題を解決するのに役立つアシスタントを作成するという問題を考察する。
エージェントを現在のアプローチとして自動化し、代行する代わりに、アシスタントにアドバイザリの役割を与え、エージェントを主要な意思決定者としてループに留める。
- 参考スコア(独自算出の注目度): 14.376001248562797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of creating assistants that can help agents - often
humans - solve novel sequential decision problems, assuming the agent is not
able to specify the reward function explicitly to the assistant. Instead of
aiming to automate, and act in place of the agent as in current approaches, we
give the assistant an advisory role and keep the agent in the loop as the main
decision maker. The difficulty is that we must account for potential biases
induced by limitations or constraints of the agent which may cause it to
seemingly irrationally reject advice. To do this we introduce a novel
formalization of assistance that models these biases, allowing the assistant to
infer and adapt to them. We then introduce a new method for planning the
assistant's advice which can scale to large decision making problems. Finally,
we show experimentally that our approach adapts to these agent biases, and
results in higher cumulative reward for the agent than automation-based
alternatives.
- Abstract(参考訳): エージェントがアシスタントに明示的に報酬関数を指定できないことを前提に、エージェント(しばしば人間)が新たなシーケンシャルな意思決定問題を解決するのを助けるアシスタントを作成する問題を考える。
現在のアプローチのようにエージェントに代わって自動化し、行動することを目指すのではなく、アシスタントに助言の役割を与え、エージェントを主要な意思決定者としてループに留める。
難しいのは、エージェントの制限や制約によって引き起こされる潜在的なバイアスを考慮しなければならないということです。
これを実現するために、これらのバイアスをモデル化する新しい支援の形式化を導入し、アシスタントがそれらを推測し、適応できるようにします。
次に,大規模な意思決定問題にスケール可能なアシスタントのアドバイスを計画するための新しい手法を提案する。
最後に,本手法がエージェントバイアスに適応することを示した結果,自動化方式よりもエージェントに対する累積報酬が高かった。
関連論文リスト
- Getting By Goal Misgeneralization With a Little Help From a Mentor [5.012314384895538]
本稿では, エージェントが不慣れな状況下で上司に助けを求めることが, この問題を軽減できるかどうかを考察する。
我々は,CoinRun環境においてPPOで訓練されたエージェントに焦点を当てた。
エージェントの内部状態に基づくメソッドは、積極的にヘルプを要求せず、ミスが既に発生するまで待つことに気付きました。
論文 参考訳(メタデータ) (2024-10-28T14:07:41Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
本稿では,高速なタスク分解とアロケーションプロセスを活用するマルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークを提案する。
提案フレームワークにフィードバックループを組み込んで,そのような問題解決プロセスの有効性と堅牢性をさらに向上させる。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning [37.70609910232786]
深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:09:43Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning [13.184897303302971]
ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントが,タスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家コールの予算を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2023-03-12T17:22:54Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Teaching Humans When To Defer to a Classifier via Examplars [9.851033166756274]
我々は、人間の意思決定者がエージェントの強みと弱みの有効な精神モデルを学ぶことを確実にすることを目指している。
本研究では,人間がエージェントの助けを借りてタスクを解く,模範的な教育戦略を提案する。
本稿では,局所的に最も近いルールを適用したAIの人間のメンタルモデルについて,新しいパラメータ化を提案する。
論文 参考訳(メタデータ) (2021-11-22T15:52:15Z) - Extending the Hint Factory for the assistance dilemma: A novel,
data-driven HelpNeed Predictor for proactive problem-solving help [6.188683567894372]
非生産的な問題解決のステップを分類し、予測し、予防するための、データ駆動型の一連の手法を提案する。
本稿では,学生が非生産的になる確率を決定するために,事前の学生データを用いたHelpNeed分類を提案する。
我々は、これらのHelpNeedメソッドが、他のよく構造化されたオープンエンドドメインにどのように適用できるかという提案で締めくくった。
論文 参考訳(メタデータ) (2020-10-08T17:04:03Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。