論文の概要: Mitigating Negative Side Effects via Environment Shaping
- arxiv url: http://arxiv.org/abs/2102.07017v1
- Date: Sat, 13 Feb 2021 22:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:28:43.083728
- Title: Mitigating Negative Side Effects via Environment Shaping
- Title(参考訳): 環境形成による副作用の軽減
- Authors: Sandhya Saisubramanian and Shlomo Zilberstein
- Abstract要約: 非構造環境で作動するエージェントは、しばしば負の副作用(NSE)を引き起こす
本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。
提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。
- 参考スコア(独自算出の注目度): 27.400267388362654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents operating in unstructured environments often produce negative side
effects (NSE), which are difficult to identify at design time. While the agent
can learn to mitigate the side effects from human feedback, such feedback is
often expensive and the rate of learning is sensitive to the agent's state
representation. We examine how humans can assist an agent, beyond providing
feedback, and exploit their broader scope of knowledge to mitigate the impacts
of NSE. We formulate this problem as a human-agent team with decoupled
objectives. The agent optimizes its assigned task, during which its actions may
produce NSE. The human shapes the environment through minor reconfiguration
actions so as to mitigate the impacts of the agent's side effects, without
affecting the agent's ability to complete its assigned task. We present an
algorithm to solve this problem and analyze its theoretical properties. Through
experiments with human subjects, we assess the willingness of users to perform
minor environment modifications to mitigate the impacts of NSE. Empirical
evaluation of our approach shows that the proposed framework can successfully
mitigate NSE, without affecting the agent's ability to complete its assigned
task.
- Abstract(参考訳): 非構造化環境で作動するエージェントは、設計時に識別が難しい負の副作用(NSE)を生じることが多い。
エージェントは人間のフィードバックから副作用を軽減することを学ぶことができますが、そのようなフィードバックはしばしば高価であり、学習率はエージェントの状態表現に敏感です。
フィードバックの提供を超えて、人間はエージェントをどのように支援できるかを検討し、NSEの影響を軽減するための幅広い知識を活用します。
私たちはこの問題を、切り離された目的を持った人間エージェントチームとして定式化します。
エージェントは割り当てられたタスクを最適化し、そのアクションがNSEを生成する。
人間は、エージェントが割り当てられたタスクを完了させる能力に影響を与えることなく、エージェントの副作用の影響を軽減するために、小さな再構成アクションを通じて環境を形作る。
本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。
被験者との実験を通じて,nseの影響を軽減するために,環境の微調整を行うユーザの意欲を評価する。
提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。
関連論文リスト
- Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Reflexion: an autonomous agent with dynamic memory and self-reflection [0.0]
本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。
我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Feedback Effect in User Interaction with Intelligent Assistants: Delayed
Engagement, Adaption and Drop-out [9.205174767678365]
本稿では,IA-ユーザインタラクションにおける新たなコンポーネントであるフィードバック効果の同定と定量化を行う。
IAからの不快な反応は、ユーザがその後の対話を遅らせたり遅らせる原因となることを示す。
ユーザがIAの理解と機能能力の限界を発見すると、ユーザは要求のスコープとワードの調整を学ぶ。
論文 参考訳(メタデータ) (2023-03-17T21:39:33Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Causal Influence Detection for Improving Efficiency in Reinforcement
Learning [11.371889042789219]
条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
論文 参考訳(メタデータ) (2021-06-07T09:21:56Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。