論文の概要: Identifying and Addressing Delusions for Target-Directed Decision-Making
- arxiv url: http://arxiv.org/abs/2410.07096v4
- Date: Wed, 16 Oct 2024 18:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:21.660741
- Title: Identifying and Addressing Delusions for Target-Directed Decision-Making
- Title(参考訳): 目標指向決定過程における妄想の同定と対応
- Authors: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio,
- Abstract要約: ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。
制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。
提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
- 参考スコア(独自算出の注目度): 81.22463009144987
- License:
- Abstract: Target-directed agents utilize self-generated targets, to guide their behaviors for better generalization. These agents are prone to blindly chasing problematic targets, resulting in worse generalization and safety catastrophes. We show that these behaviors can be results of delusions, stemming from improper designs around training: the agent may naturally come to hold false beliefs about certain targets. We identify different types of delusions via intuitive examples in controlled environments, and investigate their causes and mitigations. With the insights, we demonstrate how we can make agents address delusions preemptively and autonomously. We validate empirically the effectiveness of the proposed strategies in correcting delusional behaviors and improving out-of-distribution generalization.
- Abstract(参考訳): ターゲット指向エージェントは、自己生成ターゲットを使用して、その振る舞いをより一般化するためにガイドする。
これらの薬剤は、問題のある標的を盲目的に追跡する傾向があり、その結果、より一層の一般化と安全災害をもたらす。
これらの行動は、訓練に関する不適切な設計から起因した妄想の結果であることを示す:エージェントは、自然に特定の目標について誤った信念を持つようになるかもしれない。
制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。
これらの知見により、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
関連論文リスト
- Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。