論文の概要: Mitigating Negative Side Effects via Environment Shaping
- arxiv url: http://arxiv.org/abs/2102.07017v1
- Date: Sat, 13 Feb 2021 22:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:28:43.083728
- Title: Mitigating Negative Side Effects via Environment Shaping
- Title(参考訳): 環境形成による副作用の軽減
- Authors: Sandhya Saisubramanian and Shlomo Zilberstein
- Abstract要約: 非構造環境で作動するエージェントは、しばしば負の副作用(NSE)を引き起こす
本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。
提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。
- 参考スコア(独自算出の注目度): 27.400267388362654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents operating in unstructured environments often produce negative side
effects (NSE), which are difficult to identify at design time. While the agent
can learn to mitigate the side effects from human feedback, such feedback is
often expensive and the rate of learning is sensitive to the agent's state
representation. We examine how humans can assist an agent, beyond providing
feedback, and exploit their broader scope of knowledge to mitigate the impacts
of NSE. We formulate this problem as a human-agent team with decoupled
objectives. The agent optimizes its assigned task, during which its actions may
produce NSE. The human shapes the environment through minor reconfiguration
actions so as to mitigate the impacts of the agent's side effects, without
affecting the agent's ability to complete its assigned task. We present an
algorithm to solve this problem and analyze its theoretical properties. Through
experiments with human subjects, we assess the willingness of users to perform
minor environment modifications to mitigate the impacts of NSE. Empirical
evaluation of our approach shows that the proposed framework can successfully
mitigate NSE, without affecting the agent's ability to complete its assigned
task.
- Abstract(参考訳): 非構造化環境で作動するエージェントは、設計時に識別が難しい負の副作用(NSE)を生じることが多い。
エージェントは人間のフィードバックから副作用を軽減することを学ぶことができますが、そのようなフィードバックはしばしば高価であり、学習率はエージェントの状態表現に敏感です。
フィードバックの提供を超えて、人間はエージェントをどのように支援できるかを検討し、NSEの影響を軽減するための幅広い知識を活用します。
私たちはこの問題を、切り離された目的を持った人間エージェントチームとして定式化します。
エージェントは割り当てられたタスクを最適化し、そのアクションがNSEを生成する。
人間は、エージェントが割り当てられたタスクを完了させる能力に影響を与えることなく、エージェントの副作用の影響を軽減するために、小さな再構成アクションを通じて環境を形作る。
本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。
被験者との実験を通じて,nseの影響を軽減するために,環境の微調整を行うユーザの意欲を評価する。
提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。
関連論文リスト
- AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation [49.1914375451351]
我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。
エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Feedback Effect in User Interaction with Intelligent Assistants: Delayed
Engagement, Adaption and Drop-out [9.205174767678365]
本稿では,IA-ユーザインタラクションにおける新たなコンポーネントであるフィードバック効果の同定と定量化を行う。
IAからの不快な反応は、ユーザがその後の対話を遅らせたり遅らせる原因となることを示す。
ユーザがIAの理解と機能能力の限界を発見すると、ユーザは要求のスコープとワードの調整を学ぶ。
論文 参考訳(メタデータ) (2023-03-17T21:39:33Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Learning Proxemic Behavior Using Reinforcement Learning with Cognitive
Agents [1.0635883951034306]
プロキシミクス(英: Proxemics)は、人や動物の空間行動を研究する非言語コミュニケーションの一分野である。
本研究では, エージェントが環境中でどのように振る舞うかを, 確率的行動に基づいて検討する。
論文 参考訳(メタデータ) (2021-08-08T20:45:34Z) - Causal Influence Detection for Improving Efficiency in Reinforcement
Learning [11.371889042789219]
条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
論文 参考訳(メタデータ) (2021-06-07T09:21:56Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。